QLoRA を使用して Llama 2 を微調整し、AWS Inferentia2 を使用して Amazon SageMaker にデプロイする |アマゾンウェブサービス

プラトン再発行

フォロワー： 0

この投稿では、パラメーター効率の良い微調整 (PEFT) メソッドを使用して Llama 2 モデルを微調整し、微調整されたモデルをデプロイする方法を紹介します。 AWS インフェレンシア 2。私たちは AWS ニューロンソフトウェア開発キット (SDK) を使用して AWS Inferentia2 デバイスにアクセスし、その高いパフォーマンスを活用します。次に、次のような大規模なモデル推論コンテナを使用します。ディープJavaライブラリ (DJLServing) をモデルサービングソリューションとして使用します。

ソリューションの概要

QLoRa を使用した Llama2 の効率的な微調整

Llama 2 ファミリーの大規模言語モデル (LLM) は、7 億から 70 億のパラメーターの規模にわたる、事前トレーニングされ、微調整された生成テキストモデルのコレクションです。 Llama 2 は、公的に入手可能なソースからの 2 兆トークンのデータで事前トレーニングされました。 AWS の顧客は、ダウンストリームタスクのパフォーマンスを向上させるために、顧客自身のデータを使用して Llama 2 モデルを微調整することを選択することがあります。ただし、Llama 2 モデルには多数のパラメーターがあるため、完全な微調整には法外な費用と時間がかかる可能性があります。パラメーター効率の良い微調整 (PEFT) アプローチでは、事前トレーニングされたモデルのほとんどのパラメーターを凍結しながら、少数の追加モデルパラメーターのみを微調整するだけでこの問題に対処できます。 PEFT の詳細については、こちらをご覧ください。役職。この投稿では、 QLoRa Llama 2 7B モデルを微調整します。

Amazon SageMaker を使用して微調整されたモデルを Inf2 にデプロイする

AWS Inferentia2 は、推論ワークロード向けに設計された専用の機械学習 (ML) アクセラレーターであり、AWS 上の他の推論に最適化されたインスタンスと比較して、生成 AI および LLM ワークロードに対して最大 40% 低いコストで高性能を提供します。この投稿では、Amazon Elastic Compute Cloud (Amazon EC2) Inf2 インスタンス。AWS Inferentia2、第 2 世代の InferentiaXNUMX アクセラレータを備え、それぞれに XNUMX つが含まれています。ニューロンコア-v2。各 NeuronCore-v2 は、Tensor、Vector、Scalar、GPSIMD エンジンという 2 つのメインエンジンを備えた独立した異種コンピューティングユニットです。データの局所性を最大限に高めるためのオンチップのソフトウェア管理 SRAM メモリが含まれています。 InfXNUMX に関するブログがいくつか公開されているので、こちらを参照してください。役職とドキュメント Inf2 の詳細については、

Inf2 にモデルをデプロイするには、Inf2 ハードウェア上で実行されるソフトウェア層として AWS Neuron SDK が必要です。 AWS Neuron は、AWS Inferentia でディープラーニングワークロードを実行するために使用される SDK です。 AWS トレーニングベースのインスタンス。これにより、エンドツーエンドの ML 開発ライフサイクルが可能になり、新しいモデルを構築し、これらのモデルをトレーニングおよび最適化し、本番環境にデプロイできます。 AWS Neuron には深層学習が含まれていますコンパイラ, ランタイム, 豊富なツール群 TensorFlow や PyTorch などの一般的なフレームワークとネイティブに統合されています。このブログで使用するのは、 transformers-neuronx、これは、トランスフォーマーデコーダー推論ワークフロー用の AWS Neuron SDK の一部です。それサポート Llama 2 を含むさまざまな人気モデル。

モデルをデプロイするにはアマゾンセージメーカー、通常は、Neuron SDK や transformers-neuronx モデル提供コンポーネントも同様です。 Amazon SageMaker が保守する深層学習コンテナ (DLC) には、大規模なモデルをホストするための一般的なオープンソースライブラリが含まれています。この投稿では、ニューロン用の大規模モデル推論コンテナ。このコンテナには、Llama 2 モデルを Inf2 にデプロイするために必要なものがすべて含まれています。 Amazon SageMaker で LMI の使用を開始するためのリソースについては、既存の投稿の多くを参照してください (ブログ1, ブログ2, ブログ3）このトピックにおいて。つまり、追加のコードを記述せずにコンテナーを実行できます。使用できますデフォルトのハンドラーシームレスなユーザーエクスペリエンスを実現するために、サポートされているモデル名の 2 つと読み込み時間の構成可能なパラメーターを渡します。これにより、LLM がコンパイルされ、InfXNUMX インスタンス上で提供されます。たとえば、デプロイするには OpenAssistant/llama2-13b-orca-8k-3319、次の構成を提供できます ( serving.properties ファイル）。で serving.properties、モデルタイプを次のように指定します。 llama2-13b-orca-8k-3319、バッチサイズを 4、テンソル並列次数を 2、それだけです。設定可能なパラメータの完全なリストについては、を参照してください。すべての DJL 構成オプション.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

あるいは、次のように独自のモデルハンドラーファイルを作成することもできます。例ただし、これには、DHLServing API 間のブリッジとして機能するモデルの読み込みと推論メソッドを実装する必要があります。

前提条件

次のリストは、このブログ投稿で説明されているモデルをデプロイするための前提条件の概要を示しています。どちらからでも実装できます AWSマネジメントコンソールまたは最新バージョンの AWSコマンドラインインターフェイス（AWS CLI）。

チュートリアル

次のセクションでは、コードを XNUMX つの部分に分けて説明します。

Llama2-7b モデルを微調整し、モデルのアーティファクトを指定された Amazon S3 バケットの場所にアップロードします。
Amazon SageMaker でホストされている DJL サービングコンテナを使用して、モデルを Inferentia2 にデプロイします。

手順を含む完全なコードサンプルは、次の場所にあります。 GitHubのリポジトリ。

パート 1: PEFT を使用して Llama2-7b モデルを微調整する

この論文で最近紹介された方法を使用します QLoRA: 言語生成のための量子化対応の低ランクアダプターチューニングティム・デットマーズ他著QLoRA は、パフォーマンスを犠牲にすることなく、微調整中に大規模な言語モデルのメモリフットプリントを削減する新しい手法です。

注：以下に示す llama2-7b モデルの微調整は Amazon でテストされました。 SageMaker スタジオノートブック Python 2.0 GPU 最適化カーネルを使用して ml.g5.2xラージ インスタンスタイプ。ベストプラクティスとして、 Amazon SageMakerスタジオ独自に起動された統合開発環境 (IDE) アマゾンバーチャルプライベートクラウド（Amazon VPC）。これにより、標準のAWSネットワークおよびセキュリティ機能を使用して、VPC内外のネットワークトラフィックを制御、監視、および検査できます。詳細については、を参照してください。プライベートVPCを使用したAmazonSageMakerStudio接続の保護.

ベースモデルを量子化する

まず、次を使用して 4 ビット量子化で量子化モデルをロードします。ハグフェイストランスフォーマー次のようなライブラリ:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

トレーニングデータセットをロードする

次に、次のように微調整ステップのためにモデルにフィードするデータセットをロードします。

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

アダプター層を接続する

ここでは、次のように構成された、小さなトレーニング可能なアダプター層をアタッチします。 LoraConfig ハグフェイスの定義ペフトとしょうかん。

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

モデルをトレーニングする

上記の LoRA 構成を使用して、ハイパーパラメーターとともに Llama2 モデルを微調整します。モデルをトレーニングするためのコードスニペットを以下に示します。

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

モデルの重みを結合

上記で実行された微調整モデルにより、トレーニングされた LoRA アダプターの重みを含む新しいモデルが作成されました。次のコードスニペットでは、微調整されたモデルを推論に使用できるように、アダプターを基本モデルとマージします。

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

モデルの重量を Amazon S3 にアップロードする

パート 1 の最後のステップでは、マージされたモデルの重みを指定された Amazon S3 の場所に保存します。モデルの重みは、Inferentia2 インスタンスを使用してモデルをホストするために、Amazon SageMaker のモデル提供コンテナによって使用されます。

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

パート 2: SageMaker LMI Container を使用した AWS Inf2 での推論用の QLoRA モデルのホスト

このセクションでは、QLoRA 微調整モデルを Amazon SageMaker ホスティング環境にデプロイする手順を説明します。を使用します DJLサービス SageMaker のコンテナ DLCと統合されます。トランスフォーマー・ニューロンクスこのモデルをホストするライブラリ。このセットアップにより、AWS Inferentia2 アクセラレータへのモデルのロードが容易になり、複数の NeuronCore 間でモデルが並列化され、HTTP エンドポイントを介したサービスが可能になります。

モデルアーティファクトの準備

DJL は、以下を含む多くの深層学習最適化ライブラリをサポートしています。ディープスピード, より高速なトランスフォーマーもっと。モデル固有の構成については、 serving.properties などの重要なパラメータを使用して、 tensor_parallel_degree および model_id モデル読み込みオプションを定義します。の model_id ハグフェイスのモデル ID、またはモデルの重みが保存されている Amazon S3 パスにすることができます。この例では、微調整されたモデルの Amazon S3 の場所を提供します。次のコードスニペットは、モデルの提供に使用されるプロパティを示しています。

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

こちらをご参照くださいドキュメント利用可能な構成可能なオプションの詳細については、 serving.properties。ご了承ください。 option.n_position=512 AWS Neuron のコンパイルを高速化するために、このブログで説明します。より大きな入力トークン長を試したい場合は、事前にモデルをプリコンパイルすることをお勧めします (「 EC2 上の AOT プリコンパイルモデル）。そうしないと、コンパイル時間が長すぎる場合にタイムアウトエラーが発生する可能性があります。

後に serving.properties ファイルが定義されている場合は、ファイルをパッケージ化します。 tar.gz 次のようにフォーマットします。

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

次に、tar.gz を Amazon S3 バケットの場所にアップロードします。

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Amazon SageMaker モデルエンドポイントを作成する

Inf2 インスタンスを使用してサービスを提供するには、Amazon SageMaker LMI コンテナ DJLニューロンXサポート付き。こちらを参照してください役職推論に DJL NeuronX コンテナを使用する方法の詳細については、次のコードは、Amazon SageMaker Python SDK を使用してモデルをデプロイする方法を示しています。

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

テストモデルのエンドポイント

モデルが正常にデプロイされたら、サンプルリクエストをプレディクターに送信してエンドポイントを検証できます。

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

サンプル出力は次のようになります。

データ分析のコンテキストでは、機械学習 (ML) は、統計の範囲を反復的に絞り込むことで、複雑さと精度を高めながらデータセットから予測力を抽出できる統計手法を指します。

機械学習は新しい統計手法ではなく、既存の手法を組み合わせたものです。さらに、特定のデータセットで使用したり、特定の結果を生成したりするように設計されていません。むしろ、あらゆるデータセットに適応し、あらゆる結果について予測できるように十分な柔軟性を備えて設計されています。

クリーンアップ

SageMaker エンドポイントを実行し続けたくない場合は、次を使用して削除できます。 AWS SDK for Python (boto3)、AWS CLI、または Amazon SageMaker コンソール。さらに、あなたはまたすることができます Amazon SageMaker Studio リソースをシャットダウンします。それはもう必要ありません。

まとめ

この投稿では、単一の GPU インスタンスを使用し、2 ビット量子化を備えた LoRA アダプターを使用して Llama7-4b モデルを微調整する方法を説明しました。次に、DJL サービングコンテナを使用して、Amazon SageMaker でホストされている Inf2 インスタンスにモデルをデプロイしました。最後に、SageMaker Python SDK を使用したテキスト生成予測で Amazon SageMaker モデルのエンドポイントを検証しました。ぜひお試しください。フィードバックをお待ちしております。 AWS Inferentia のさらなる機能と新しいイノベーションに関する最新情報をお待ちください。

AWS Neuron のその他の例については、を参照してください。 aws-ニューロン-サンプル.

著者について

ウェイ・テ AWS のシニア AI/ML スペシャリストソリューションアーキテクトです。彼は、Amazon Machine Learning サービスと機械学習ベースのソリューションに重点を置き、お客様の AWS への移行を支援することに情熱を注いでいます。仕事以外では、家族と一緒にキャンプ、釣り、ハイキングなどのアウトドア活動を楽しんでいます。

QLoRA を使用して Llama 2 を微調整し、AWS Inferentia2 を使用して Amazon SageMaker にデプロイする |アマゾンウェブサービス PlatoBlockchain データインテリジェンス。垂直検索。あい。 チンウェイ・リ アマゾンウェブサービスの機械学習スペシャリストです。彼は博士号を取得しました。アドバイザーの研究助成金口座を破り、約束したノーベル賞を授与できなかった後、オペレーションズリサーチで。現在、彼は金融サービスおよび保険業界の顧客がAWSで機械学習ソリューションを構築するのを支援しています。暇なときは、読書と教育が好きです。