การจัดการโมเดลสำหรับ LoRA โมเดลที่ได้รับการปรับแต่งอย่างละเอียดโดยใช้ Llama2 และ Amazon SageMaker

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในยุคของข้อมูลขนาดใหญ่และ AI บริษัทต่างๆ ต่างแสวงหาวิธีการใช้เทคโนโลยีเหล่านี้อย่างต่อเนื่องเพื่อสร้างความได้เปรียบทางการแข่งขัน หนึ่งในประเด็นที่ร้อนแรงที่สุดใน AI ในขณะนี้คือ AI เชิงสร้างสรรค์ และด้วยเหตุผลที่ดี Generative AI นำเสนอโซลูชันอันทรงพลังที่ก้าวข้ามขอบเขตของสิ่งที่เป็นไปได้ในแง่ของความคิดสร้างสรรค์และนวัตกรรม หัวใจสำคัญของโซลูชันที่ล้ำสมัยเหล่านี้อยู่ที่โมเดลพื้นฐาน (FM) ซึ่งเป็นโมเดลการเรียนรู้ของเครื่องขั้นสูงที่ได้รับการฝึกอบรมล่วงหน้ากับข้อมูลจำนวนมหาศาล โมเดลพื้นฐานหลายตัวได้แสดงให้เห็นถึงความสามารถที่โดดเด่นในการทำความเข้าใจและสร้างข้อความที่เหมือนมนุษย์ ทำให้กลายเป็นเครื่องมืออันทรงคุณค่าสำหรับการใช้งานที่หลากหลาย ตั้งแต่การสร้างเนื้อหาไปจนถึงระบบอัตโนมัติในการสนับสนุนลูกค้า

อย่างไรก็ตาม โมเดลเหล่านี้ไม่ได้ปราศจากความท้าทาย มีขนาดใหญ่เป็นพิเศษและต้องการข้อมูลและทรัพยากรการคำนวณจำนวนมากเพื่อฝึกอบรม นอกจากนี้ การเพิ่มประสิทธิภาพกระบวนการฝึกอบรมและการสอบเทียบพารามิเตอร์อาจเป็นกระบวนการที่ซับซ้อนและทำซ้ำได้ ซึ่งต้องใช้ความเชี่ยวชาญและการทดลองอย่างรอบคอบ สิ่งเหล่านี้อาจเป็นอุปสรรคสำหรับหลายองค์กรที่ต้องการสร้างโมเดลพื้นฐานของตนเอง เพื่อเอาชนะความท้าทายนี้ ลูกค้าจำนวนมากกำลังพิจารณาที่จะปรับแต่งโมเดลฐานรากที่มีอยู่ นี่เป็นเทคนิคยอดนิยมในการปรับพารามิเตอร์โมเดลส่วนเล็กๆ สำหรับแอปพลิเคชันเฉพาะ ในขณะที่ยังคงรักษาความรู้ที่เข้ารหัสไว้ในโมเดลแล้ว ช่วยให้องค์กรต่างๆ ใช้ประสิทธิภาพของโมเดลเหล่านี้ ในขณะเดียวกันก็ลดทรัพยากรที่จำเป็นในการปรับแต่งให้เข้ากับโดเมนหรืองานเฉพาะ

มีสองวิธีหลักในการปรับแต่งโมเดลพื้นฐานอย่างละเอียด: การปรับแต่งแบบดั้งเดิม และการปรับแต่งพารามิเตอร์ที่มีประสิทธิภาพ การปรับแต่งแบบละเอียดแบบดั้งเดิมเกี่ยวข้องกับการอัพเดตพารามิเตอร์ทั้งหมดของแบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าสำหรับงานดาวน์สตรีมเฉพาะ ในทางกลับกัน การปรับอย่างละเอียดอย่างมีประสิทธิภาพด้วยพารามิเตอร์ประกอบด้วยเทคนิคที่หลากหลายที่ช่วยให้สามารถปรับแต่งโมเดลได้โดยไม่ต้องอัปเดตพารามิเตอร์โมเดลดั้งเดิมทั้งหมด เทคนิคหนึ่งเรียกว่า Low-rank Adaptation (LoRA) โดยเกี่ยวข้องกับการเพิ่มโมดูลขนาดเล็กเฉพาะงานให้กับโมเดลที่ได้รับการฝึกอบรมล่วงหน้า และฝึกอบรมโมดูลเหล่านั้นโดยยังคงรักษาพารามิเตอร์ที่เหลือไว้คงที่ดังที่แสดงในรูปภาพต่อไปนี้

การจัดการโมเดลสำหรับโมเดล LoRA ที่ปรับแต่งอย่างละเอียดโดยใช้ Llama2 และ Amazon SageMaker | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.

ที่มา: AI เจนเนอเรชั่นบน AWS (O'Reilly, 2023)

LoRA ได้รับความนิยมเมื่อเร็วๆ นี้ด้วยเหตุผลหลายประการ ให้การฝึกอบรมที่รวดเร็วขึ้น ความต้องการหน่วยความจำลดลง และความสามารถในการนำโมเดลที่ได้รับการฝึกอบรมมาล่วงหน้ากลับมาใช้ใหม่สำหรับงานดาวน์สตรีมหลายๆ งาน ที่สำคัญกว่านั้นคือรุ่นพื้นฐานและอะแดปเตอร์สามารถจัดเก็บแยกกันและรวมเข้าด้วยกันได้ตลอดเวลา ทำให้ง่ายต่อการจัดเก็บ แจกจ่าย และแบ่งปันเวอร์ชันที่ได้รับการปรับแต่งอย่างละเอียด อย่างไรก็ตาม สิ่งนี้ทำให้เกิดความท้าทายใหม่: วิธีจัดการโมเดลที่ได้รับการปรับแต่งใหม่เหล่านี้อย่างเหมาะสม คุณควรรวมรุ่นพื้นฐานและอะแดปเตอร์หรือแยกไว้ต่างหาก? ในโพสต์นี้ เราจะอธิบายแนวทางปฏิบัติที่ดีที่สุดสำหรับการจัดการโมเดลที่ได้รับการปรับแต่ง LoRA อเมซอน SageMaker เพื่อตอบคำถามที่เกิดขึ้นนี้

การทำงานร่วมกับ FM บน SageMaker Model Registry

ในโพสต์นี้ เราจะอธิบายตัวอย่างตั้งแต่ต้นจนจบของการปรับแต่ง Llama2 large language model (LLM) อย่างละเอียดโดยใช้วิธี QLoRA QLoRA รวมข้อดีของการปรับพารามิเตอร์อย่างมีประสิทธิภาพเข้ากับการหาปริมาณ 4 บิต/8 บิต เพื่อลดทรัพยากรที่จำเป็นในการปรับแต่ง FM อย่างละเอียดให้เหมาะกับงานหรือกรณีการใช้งานเฉพาะ สำหรับสิ่งนี้ เราจะใช้โมเดล Llama7 พารามิเตอร์ 2 พันล้านที่ได้รับการฝึกอบรมล่วงหน้า และปรับแต่งบนชุดข้อมูล databricks-dolly-15k LLM เช่น Llama2 มีพารามิเตอร์นับพันล้านและได้รับการฝึกอบรมล่วงหน้ากับชุดข้อมูลข้อความขนาดใหญ่ การปรับแต่งอย่างละเอียดจะปรับ LLM ให้เป็นงานดาวน์สตรีมโดยใช้ชุดข้อมูลที่เล็กลง อย่างไรก็ตาม การปรับแต่งโมเดลขนาดใหญ่อย่างละเอียดนั้นมีราคาแพงในการคำนวณ นี่คือเหตุผลที่เราจะใช้วิธี QLoRA เพื่อหาปริมาณน้ำหนักระหว่างการปรับแต่งอย่างละเอียดเพื่อลดต้นทุนการคำนวณนี้

ในตัวอย่างของเรา คุณจะพบสมุดบันทึกสองเล่ม (llm-finetune-combined-with-registry.ipynb และ llm-finetune-separate-with-registry.ipynb). แต่ละโมเดลทำงานด้วยวิธีที่แตกต่างกันในการจัดการโมเดลที่ได้รับการปรับแต่ง LoRA ดังแสดงในแผนภาพต่อไปนี้:

อันดับแรก เราจะดาวน์โหลดโมเดล Llama2 ที่ได้รับการฝึกอบรมล่วงหน้าซึ่งมีพารามิเตอร์ 7 พันล้านพารามิเตอร์โดยใช้ SageMaker Studio Notebooks LLM เช่น Llama2 ได้แสดงให้เห็นถึงประสิทธิภาพที่ล้ำสมัยในงานประมวลผลภาษาธรรมชาติ (NLP) เมื่อปรับแต่งข้อมูลเฉพาะโดเมนอย่างละเอียด
ต่อไป เราจะปรับแต่ง Llama2 บนชุดข้อมูล databricks-dolly-15k โดยใช้วิธี QLoRA QLoRA ช่วยลดต้นทุนการคำนวณในการปรับแต่งแบบละเอียดด้วยการหาปริมาณน้ำหนักโมเดล
ในระหว่างการปรับแต่ง เราได้รวม SageMaker Experiments Plus เข้ากับ Transformers API เพื่อบันทึกการวัดโดยอัตโนมัติ เช่น การไล่ระดับสี การสูญเสีย ฯลฯ
จากนั้นเราจะกำหนดเวอร์ชันโมเดล Llama2 ที่ได้รับการปรับแต่งอย่างละเอียดใน SageMaker Model Registry โดยใช้สองวิธี:
1. จัดเก็บโมเดลแบบเต็ม
2. การจัดเก็บอะแดปเตอร์และรุ่นฐานแยกกัน
สุดท้ายนี้ เราโฮสต์โมเดล Llama2 ที่ได้รับการปรับแต่งอย่างละเอียดโดยใช้ Deep Java Library (DJL) ที่ให้บริการบนตำแหน่งข้อมูลเรียลไทม์ของ SageMaker

ในส่วนต่อไปนี้ เราจะเจาะลึกลงไปในแต่ละขั้นตอนเหล่านี้ เพื่อสาธิตความยืดหยุ่นของ SageMaker สำหรับเวิร์กโฟลว์ LLM ที่แตกต่างกัน และวิธีที่ฟีเจอร์เหล่านี้สามารถช่วยปรับปรุงการทำงานของโมเดลของคุณได้อย่างไร

เบื้องต้น

ปฏิบัติตามข้อกำหนดเบื้องต้นต่อไปนี้ให้ครบถ้วนเพื่อเริ่มการทดสอบโค้ด

สร้าง โดเมน SageMaker Studio: Amazon SageMaker Studio โดยเฉพาะ Studio Notebooks ใช้เพื่อเริ่มงานการปรับแต่ง Llama2 จากนั้นลงทะเบียนและดูโมเดลภายใน การลงทะเบียนโมเดล SageMaker. การทดลอง SageMaker ยังใช้เพื่อดูและเปรียบเทียบบันทึกงานการปรับแต่ง Llama2 (การสูญเสียการฝึก/การสูญเสียการทดสอบ/อื่นๆ)
สร้างบัคเก็ต Amazon Simple Storage Service (S3): จำเป็นต้องเข้าถึงบัคเก็ต S3 เพื่อจัดเก็บอาร์ติแฟกต์การฝึกและน้ำหนักโมเดล สำหรับคำแนะนำ โปรดดูที่ การสร้างถัง. โค้ดตัวอย่างที่ใช้สำหรับโพสต์นี้จะใช้บัคเก็ต S3 เริ่มต้นของ SageMaker แต่คุณสามารถปรับแต่งเพื่อใช้บัคเก็ต S3 ที่เกี่ยวข้องได้
ตั้งค่าคอลเลกชันโมเดล (สิทธิ์ IAM): อัปเดตบทบาทการดำเนินการ SageMaker ของคุณด้วยสิทธิ์ในกลุ่มทรัพยากรตามรายการภายใต้ คู่มือนักพัฒนา Model Registry Collections เพื่อใช้การจัดกลุ่ม Model Registry โดยใช้ Model Collections
ยอมรับข้อกำหนดและเงื่อนไขสำหรับ Llama2: คุณจะต้องยอมรับข้อตกลงสิทธิ์การใช้งานสำหรับผู้ใช้ปลายทางและนโยบายการใช้งานที่ยอมรับได้สำหรับการใช้โมเดลพื้นฐาน Llama2

ตัวอย่างมีอยู่ใน พื้นที่เก็บข้อมูล GitHub. ไฟล์สมุดบันทึกได้รับการทดสอบโดยใช้สมุดบันทึก Studio ที่ทำงานบน PyTorch 2.0.0 Python 3.10 GPU Optimized kernel และประเภทอินสแตนซ์ ml.g4dn.xlarge

การทดลองพร้อมการบูรณาการการโทรกลับ

การทดลอง Amazon SageMaker ช่วยให้คุณสามารถจัดระเบียบ ติดตาม เปรียบเทียบ และประเมินการทดลองของแมชชีนเลิร์นนิ่ง (ML) และเวอร์ชันโมเดลจากสภาพแวดล้อมการพัฒนาแบบผสานรวม (IDE) รวมถึง Jupyter Notebook ในเครื่อง โดยใช้ SageMaker Python SDK หรือ boto3 โดยให้ความยืดหยุ่นในการบันทึกตัววัดโมเดล พารามิเตอร์ ไฟล์ อาร์ติแฟกต์ แผนภูมิพล็อตจากตัววัดต่างๆ บันทึกข้อมูลเมตาต่างๆ ค้นหาผ่านสิ่งเหล่านั้น และสนับสนุนความสามารถในการทำซ้ำของโมเดล นักวิทยาศาสตร์ข้อมูลสามารถเปรียบเทียบประสิทธิภาพและไฮเปอร์พารามิเตอร์สำหรับการประเมินแบบจำลองได้อย่างรวดเร็วผ่านแผนภูมิและตารางแบบภาพ พวกเขายังสามารถใช้ SageMaker Experiments เพื่อดาวน์โหลดแผนภูมิที่สร้างขึ้นและแบ่งปันการประเมินแบบจำลองกับผู้มีส่วนได้ส่วนเสียของพวกเขา

การฝึกอบรม LLM อาจเป็นกระบวนการที่ช้า มีราคาแพง และทำซ้ำได้ เป็นสิ่งสำคัญมากสำหรับผู้ใช้ในการติดตามการทดลอง LLM ในวงกว้าง เพื่อป้องกันประสบการณ์การปรับแต่งโมเดลที่ไม่สอดคล้องกัน HuggingFace Transformer API อนุญาตให้ผู้ใช้ติดตามตัวชี้วัดระหว่างงานฝึกอบรมผ่าน เรียกกลับ. การโทรกลับเป็นโค้ด “อ่านอย่างเดียว” ที่สามารถปรับแต่งพฤติกรรมของลูปการฝึกใน PyTorch Trainer ที่สามารถตรวจสอบสถานะของลูปการฝึกสำหรับการรายงานความคืบหน้า การบันทึกบน TensorBoard หรือ SageMaker Experiments Plus ผ่านตรรกะที่กำหนดเอง (ซึ่งรวมไว้เป็นส่วนหนึ่ง ของโค้ดเบสนี้)

คุณสามารถนำเข้าโค้ดเรียกกลับ SageMaker Experiments ที่รวมอยู่ในที่เก็บโค้ดของโพสต์นี้ได้ ดังที่แสดงในบล็อกโค้ดต่อไปนี้:

# imports a custom implementation of Experiments Callback
from smexperiments_callback import SageMakerExperimentsCallback
...
...
# Create Trainer instance with SageMaker experiments callback
trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=validation_dataset, data_collator=default_data_collator, callbacks=[SageMakerExperimentsCallback] # Add our Experiments Plus Callback function
)

การโทรกลับนี้จะบันทึกข้อมูลต่อไปนี้ลงใน SageMaker Experiments โดยอัตโนมัติโดยเป็นส่วนหนึ่งของการฝึก:

พารามิเตอร์การฝึกอบรมและไฮเปอร์พารามิเตอร์
การสูญเสียการฝึกอบรมโมเดลและการตรวจสอบความถูกต้องในขั้นตอน ยุค และขั้นสุดท้าย
สิ่งประดิษฐ์อินพุตและเอาท์พุตของโมเดล (ชุดข้อมูลการฝึก ชุดข้อมูลการตรวจสอบ ตำแหน่งเอาต์พุตของโมเดล ดีบักเกอร์การฝึก และอื่นๆ)

กราฟต่อไปนี้แสดงตัวอย่างแผนภูมิที่คุณสามารถแสดงได้โดยใช้ข้อมูลนั้น

ซึ่งช่วยให้คุณเปรียบเทียบการทำงานหลายครั้งได้อย่างง่ายดายโดยใช้คุณสมบัติวิเคราะห์ของ SageMaker Experiments คุณสามารถเลือกการทดสอบที่คุณต้องการเปรียบเทียบ จากนั้นการทดสอบเหล่านั้นจะสร้างกราฟเปรียบเทียบโดยอัตโนมัติ

ลงทะเบียนโมเดลที่ได้รับการปรับแต่งอย่างละเอียดไปยัง Model Registry Collections

คอลเลกชันรีจิสทรีโมเดล เป็นคุณสมบัติของ การลงทะเบียนโมเดล SageMaker ที่ช่วยให้คุณสามารถจัดกลุ่มโมเดลที่ลงทะเบียนไว้ซึ่งสัมพันธ์กัน และจัดระเบียบโมเดลเหล่านั้นเป็นลำดับชั้นเพื่อปรับปรุงการค้นพบโมเดลในวงกว้าง เราจะใช้ Model Registry Collections เพื่อติดตามโมเดลพื้นฐานและตัวแปรที่ได้รับการปรับแต่งอย่างละเอียด

วิธีการคัดลอกแบบเต็ม

วิธีแรกเป็นการรวมโมเดลพื้นฐานและอะแดปเตอร์ LoRA และบันทึกโมเดลที่ได้รับการปรับแต่งแบบละเอียดทั้งหมด รหัสต่อไปนี้แสดงให้เห็นถึงกระบวนการผสานโมเดลและบันทึกการใช้โมเดลแบบรวม model.save_pretrained().

if args.merge_weights: trainer.model.save_pretrained(temp_dir, safe_serialization=False) # clear memory del model del trainer torch.cuda.empty_cache() from peft import AutoPeftModelForCausalLM # load PEFT model in fp16 model = AutoPeftModelForCausalLM.from_pretrained( temp_dir, low_cpu_mem_usage=True, torch_dtype=torch.float16, ) # Merge LoRA and base model and save model = model.merge_and_unload() model.save_pretrained( args.sm_model_dir, safe_serialization=True, max_shard_size="2GB" )

การรวมอะแดปเตอร์ LoRA และโมเดลพื้นฐานเข้าไว้ในสิ่งประดิษฐ์ของโมเดลเดียวหลังจากการปรับแต่งแบบละเอียดมีทั้งข้อดีและข้อเสีย โมเดลแบบรวมนั้นมีอยู่ในตัวเองและสามารถจัดการและปรับใช้ได้อย่างอิสระโดยไม่จำเป็นต้องใช้โมเดลพื้นฐานดั้งเดิม โมเดลสามารถติดตามได้เป็นเอนทิตีของตัวเองโดยมีชื่อเวอร์ชันที่สะท้อนถึงโมเดลพื้นฐานและข้อมูลการปรับแต่งอย่างละเอียด เราสามารถนำระบบการตั้งชื่อมาใช้ได้โดยใช้ base_model_name + ปรับแต่ง dataset_name เพื่อจัดกลุ่มแบบจำลอง อีกทางเลือกหนึ่ง คอลเลกชันโมเดลสามารถเชื่อมโยงโมเดลดั้งเดิมและโมเดลที่ได้รับการปรับแต่ง แต่อาจไม่จำเป็นเนื่องจากโมเดลที่รวมกันนั้นเป็นอิสระจากกัน ข้อมูลโค้ดต่อไปนี้จะแสดงวิธีการลงทะเบียนโมเดลที่ได้รับการปรับแต่งอย่างละเอียด

# Model Package Group Vars
ft_package_group_name = f"{model_id.replace('/', '--')}-{dataset_name}"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-{dataset_name}-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)

คุณสามารถใช้ตัวประมาณการฝึกเพื่อลงทะเบียนโมเดลลงใน Model Registry

inference_image_uri = sagemaker.image_uris.retrieve( "djl-deepspeed", region=region, version="0.23.0"
)
print(f"Image going to be used is ---- > {inference_image_uri}") model_package = huggingface_estimator.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ...
...
... ], image_uri = inference_image_uri, customer_metadata_properties = {"training-image-uri": huggingface_estimator.training_image_uri()}, #Store the training image url model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) model_package_arn = model_package.model_package_arn
print("Model Package ARN : ", model_package_arn)

จาก Model Registry คุณสามารถดึงข้อมูลแพ็กเกจโมเดลและปรับใช้โมเดลนั้นได้โดยตรง

endpoint_name = f"{name_from_base(model_group_for_base)}-endpoint" model_package.deploy( initial_instance_count=1, instance_type="ml.g5.12xlarge", endpoint_name=endpoint_name
)

อย่างไรก็ตาม วิธีการนี้มีข้อเสียอยู่ การรวมโมเดลเข้าด้วยกันทำให้เกิดความไร้ประสิทธิภาพในการจัดเก็บข้อมูลและความซ้ำซ้อน เนื่องจากโมเดลพื้นฐานจะถูกทำซ้ำในแต่ละเวอร์ชันที่ได้รับการปรับแต่งอย่างละเอียด เมื่อขนาดโมเดลและจำนวนโมเดลที่ได้รับการปรับแต่งเพิ่มขึ้น ความต้องการพื้นที่จัดเก็บข้อมูลก็เพิ่มขึ้นเป็นทวีคูณ ยกตัวอย่างรุ่น llama2 7b รุ่นพื้นฐานมีขนาดประมาณ 13 GB และรุ่นที่ปรับแต่งแล้วคือ 13.6 GB 96% เปอร์เซ็นต์ของโมเดลจำเป็นต้องทำซ้ำหลังจากการปรับแต่งแบบละเอียดแต่ละครั้ง นอกจากนี้ การแจกจ่ายและแบ่งปันไฟล์โมเดลขนาดใหญ่มากยังทำได้ยากขึ้น และนำเสนอความท้าทายในการปฏิบัติงาน เนื่องจากการถ่ายโอนไฟล์และต้นทุนการจัดการเพิ่มขึ้นตามขนาดโมเดลที่เพิ่มขึ้นและงานปรับแต่ง

แยกอะแดปเตอร์และวิธีการฐาน

วิธีที่สองมุ่งเน้นไปที่การแยกน้ำหนักฐานและน้ำหนักของอะแดปเตอร์โดยบันทึกเป็นส่วนประกอบโมเดลที่แยกจากกัน และโหลดตามลำดับที่รันไทม์

 .. .. .. else: # save finetuned LoRA model and then the tokenizer for inference trainer.model.save_pretrained( args.sm_model_dir, safe_serialization=True ) tokenizer.save_pretrained( args.sm_model_dir )

การบันทึกน้ำหนักฐานและอะแดปเตอร์มีข้อดีและข้อเสีย คล้ายกับวิธีการคัดลอกแบบจำลองแบบเต็ม ข้อดีประการหนึ่งคือสามารถประหยัดพื้นที่จัดเก็บได้ ตุ้มน้ำหนักฐานซึ่งเป็นส่วนประกอบที่ใหญ่ที่สุดของโมเดลที่ได้รับการปรับแต่งอย่างละเอียด จะถูกบันทึกไว้เพียงครั้งเดียว และสามารถนำกลับมาใช้ใหม่กับตุ้มน้ำหนักอะแดปเตอร์อื่นๆ ที่ได้รับการปรับแต่งสำหรับงานที่แตกต่างกัน ตัวอย่างเช่น น้ำหนักพื้นฐานของ Llama2-7B คือประมาณ 13 GB แต่งานการปรับแต่งแต่ละงานจำเป็นต้องจัดเก็บน้ำหนักของอะแดปเตอร์เพียงประมาณ 0.6 GB เท่านั้น ซึ่งช่วยประหยัดพื้นที่ได้ 95% ข้อดีอีกประการหนึ่งคือสามารถจัดการตุ้มน้ำหนักฐานแยกจากตุ้มน้ำหนักอะแดปเตอร์ได้โดยใช้รีจีสทรีโมเดลเฉพาะตุ้มน้ำหนักฐานเท่านั้น สิ่งนี้มีประโยชน์สำหรับโดเมน SageMaker ที่ทำงานในโหมด VPC เท่านั้นโดยไม่มีเกตเวย์อินเทอร์เน็ต เนื่องจากสามารถเข้าถึงน้ำหนักพื้นฐานได้โดยไม่ต้องผ่านอินเทอร์เน็ต

สร้างกลุ่มแพ็คเกจแบบจำลองสำหรับน้ำหนักฐาน

### Create Model Package Group
base_package_group_name = model_id.replace('/', '--')
base_package_group_desc = "Source: https://huggingface.co/Mikael110/llama-2-7b-guanaco-fp16"
...
...
...
model_package_group_input_dict = { "ModelPackageGroupName" : base_package_group_name, "ModelPackageGroupDescription" : base_package_group_desc, "Tags": base_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
) >>>
Created ModelPackageGroup Arn : arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16
...
...
... ### Register Base Model Weights
from sagemaker.huggingface import HuggingFaceModel # create Hugging Face Model Class
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data=model_data_uri, # this is an S3 path to your base weights as *.tar.gz role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=base_model_pkg_group_name, approval_status="Approved" )

สร้างกลุ่มแพ็คเกจโมเดลสำหรับตุ้มน้ำหนัก QLoRA

โค้ดต่อไปนี้แสดงวิธีติดแท็กน้ำหนัก QLoRA ด้วยชุดข้อมูล/ประเภทงาน และลงทะเบียนน้ำหนักเดลต้าที่ปรับแต่งอย่างละเอียดลงในรีจีสทรีแบบจำลองที่แยกต่างหาก และติดตามน้ำหนักเดลต้าแยกกัน

### Create Model Package Group for delta weights
ft_package_group_name = f"{model_id.replace('/', '--')}-finetuned-sql"
ft_package_group_desc = "QLoRA for model Mikael110/llama-2-7b-guanaco-fp16"
ft_tags = [ { "Key": "modelType", "Value": "QLoRAModel" }, { "Key": "fineTuned", "Value": "True" }, { "Key": "sourceDataset", "Value": f"{dataset_name}" }
]
model_package_group_input_dict = { "ModelPackageGroupName" : ft_package_group_name, "ModelPackageGroupDescription" : ft_package_group_desc, "Tags": ft_tags
}
create_model_pacakge_group_response = sm_client.create_model_package_group(
**model_package_group_input_dict
)
print(f'Created ModelPackageGroup Arn : {create_model_pacakge_group_response["ModelPackageGroupArn"]}')
ft_model_pkg_group_name = create_model_pacakge_group_response["ModelPackageGroupArn"] >>> Created ModelPackageGroup Arn : arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql ...
...
... ### Register Delta Weights QLoRA Model Weights
huggingface_model = HuggingFaceModel( transformers_version='4.28', pytorch_version='2.0', py_version='py310', model_data="s3://sagemaker-us-east-1-811828458885/huggingface-qlora-2308180454/output/model.tar.gz", OR #huggingface_estimator.model_data role=role,
) _response = huggingface_model.register( content_types=["application/json"], response_types=["application/json"], inference_instances=[ "ml.p2.16xlarge", ... ], transform_instances=[ "ml.p2.16xlarge", ... ], model_package_group_name=ft_model_pkg_group_name, approval_status="Approved"
) >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

ตัวอย่างต่อไปนี้แสดงมุมมองจาก Model Registry โดยที่แบบจำลองต่างๆ จะถูกแบ่งออกเป็นฐานและน้ำหนักที่ปรับแต่งอย่างละเอียด

การจัดการโมเดล ชุดข้อมูล และงานสำหรับ LLM ที่มีความเป็นส่วนตัวสูงอาจกลายเป็นเรื่องล้นหลามได้อย่างรวดเร็ว คอลเลกชันรีจิสทรีโมเดล SageMaker สามารถช่วยคุณจัดกลุ่มโมเดลที่เกี่ยวข้องเข้าด้วยกันและจัดระเบียบเป็นลำดับชั้นเพื่อปรับปรุงการค้นพบโมเดลได้ ทำให้ง่ายต่อการติดตามความสัมพันธ์ระหว่างน้ำหนักฐาน น้ำหนักของอะแดปเตอร์ และชุดข้อมูลงานการปรับแต่งอย่างละเอียด คุณยังสามารถสร้างความสัมพันธ์ที่ซับซ้อนและการเชื่อมโยงระหว่างแบบจำลองได้

สร้างคอลเลกชันใหม่และเพิ่มน้ำหนักโมเดลพื้นฐานของคุณให้กับคอลเลกชันนี้

# create model collection
base_collection = model_collector.create( collection_name=model_group_for_base # ex: "Website_Customer_QnA_Bot_Model"
) # Add the base weights at first level of model collections as all future models # are going to be tuned from the base weights
_response = model_collector.add_model_groups( collection_name=base_collection["Arn"], model_groups=[base_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-west-2:376678947624:model-package-group/Mikael110--llama-2-7b-guanaco-fp16'], 'failure': []}

เชื่อมโยง Delta Weights ของอะแดปเตอร์ LoRA ที่ปรับแต่งแบบละเอียดทั้งหมดของคุณเข้ากับคอลเลกชันนี้ตามงานและ/หรือชุดข้อมูล

# create model collection for finetuned and link it back to the base
finetuned_collection = model_collector.create( collection_name=model_group_for_finetune, parent_collection_name=model_group_for_base
) # add finetuned model package group to the new finetuned collection
_response = model_collector.add_model_groups( collection_name=model_group_for_finetune, model_groups=[ft_model_pkg_group_name]
)
print(f"Model collection creation status: {_response}") >>>
Model collection creation status: {'added_groups': ['arn:aws:sagemaker:us-east-1:811828458885:model-package-group/mikael110--llama-2-7b-guanaco-fp16-finetuned-sql'], 'failure': []}

ซึ่งจะส่งผลให้เกิดลำดับชั้นของคอลเลกชันที่เชื่อมโยงกันตามโมเดล/ประเภทงาน และชุดข้อมูลที่ใช้ในการปรับแต่งโมเดลพื้นฐาน

วิธีการแยกรุ่นฐานและอะแดปเตอร์นี้มีข้อเสียบางประการ ข้อเสียเปรียบประการหนึ่งคือความซับซ้อนในการปรับใช้โมเดล เนื่องจากมีอาร์ติแฟกต์ของโมเดลสองรายการที่แยกจากกัน คุณจึงต้องมีขั้นตอนเพิ่มเติมในการจัดทำโมเดลใหม่ แทนที่จะปรับใช้โดยตรงจาก Model Registry ในตัวอย่างโค้ดต่อไปนี้ ให้ดาวน์โหลดและบรรจุเวอร์ชันล่าสุดของโมเดลพื้นฐานใหม่ก่อน

!aws s3 cp {base_model_package.model_data} . !tar -xvf {model_tar_filename} -C ./deepspeed/ !mv ./deepspeed/{model_id} ./deepspeed/base !rm -rf ./deepspeed/{model_id}

จากนั้นดาวน์โหลดและบรรจุน้ำหนักของอะแดปเตอร์ LoRA ที่ปรับแต่งล่าสุดแล้วบรรจุใหม่

!aws s3 cp {LoRA_package.model_data} . !mkdir -p ./deepspeed/lora/ !tar -xzf model.tar.gz -C ./deepspeed/lora/

เนื่องจากคุณจะใช้การให้บริการ DJL ด้วย Deepspeed เพื่อโฮสต์โมเดล ไดเร็กทอรีการอนุมานของคุณควรมีลักษณะดังนี้

deepspeed |-serving.properties |-requirements.txt |-model.py |-base/ |-... |-lora/ |-...

สุดท้าย จัดแพ็คเกจโค้ดการอนุมานแบบกำหนดเอง โมเดลพื้นฐาน และอะแดปเตอร์ LoRA ไว้ในไฟล์ .tar.gz ไฟล์เดียวสำหรับการปรับใช้

!rm -f model.tar.gz
!tar czvf model.tar.gz -C deepspeed .
s3_code_artifact_deepspeed = sagemaker_session.upload_data("model.tar.gz", default_bucket, f"{s3_key_prefix}/inference")
print(f"S3 Code or Model tar for deepspeed uploaded to --- > {s3_code_artifact_deepspeed}")

ทำความสะอาด

ทำความสะอาดทรัพยากรของคุณโดยทำตามคำแนะนำในส่วนการล้างข้อมูลของโน้ตบุ๊ก อ้างถึง ราคา Amazon SageMaker สำหรับรายละเอียดเกี่ยวกับค่าใช้จ่ายของอินสแตนซ์การอนุมาน

สรุป

โพสต์นี้จะอธิบายแนวทางปฏิบัติที่ดีที่สุดในการจัดการโมเดล LoRA ที่ปรับแต่งอย่างละเอียดบน Amazon SageMaker เราได้ครอบคลุมวิธีการหลักสองวิธี: การรวมตุ้มน้ำหนักฐานและอะแดปเตอร์ให้เป็นโมเดลที่มีในตัวเองเพียงรุ่นเดียว และการแยกตุ้มน้ำหนักฐานและอะแดปเตอร์ ทั้งสองวิธีมีข้อดีข้อเสีย แต่การแยกน้ำหนักจะช่วยเพิ่มประสิทธิภาพการจัดเก็บข้อมูล และเปิดใช้เทคนิคการจัดการโมเดลขั้นสูง เช่น SageMaker Model Registry Collections สิ่งนี้ช่วยให้คุณสร้างลำดับชั้นและความสัมพันธ์ระหว่างแบบจำลองเพื่อปรับปรุงองค์กรและการค้นพบได้ เราขอแนะนำให้คุณลองใช้โค้ดตัวอย่าง พื้นที่เก็บข้อมูล GitHub เพื่อทดลองวิธีการเหล่านี้ด้วยตัวเอง ในขณะที่ Generative AI ดำเนินไปอย่างรวดเร็ว การปฏิบัติตามแนวทางปฏิบัติที่ดีที่สุดในการจัดการแบบจำลองจะช่วยให้คุณติดตามการทดลอง ค้นหาแบบจำลองที่เหมาะสมสำหรับงานของคุณ และจัดการ LLM เฉพาะทางได้อย่างมีประสิทธิภาพในวงกว้าง

อ้างอิง

เกี่ยวกับผู้แต่ง

การจัดการโมเดลสำหรับโมเดล LoRA ที่ปรับแต่งอย่างละเอียดโดยใช้ Llama2 และ Amazon SageMaker | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI. เจมส์ หวู่ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML อาวุโสที่ AWS ช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML งานของ James ครอบคลุมกรณีการใช้งาน ML ที่หลากหลาย โดยมีความสนใจหลักในด้านการมองเห็นคอมพิวเตอร์ การเรียนรู้เชิงลึก และการปรับขนาด ML ทั่วทั้งองค์กร ก่อนที่จะร่วมงานกับ AWS เจมส์เคยเป็นสถาปนิก นักพัฒนา และผู้นำด้านเทคโนโลยีมานานกว่า 10 ปี รวมถึง 6 ปีในด้านวิศวกรรมและ 4 ปีในอุตสาหกรรมการตลาดและการโฆษณา

ปรานาฟ เมอร์ธี เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญ AI/ML ที่ AWS เขามุ่งเน้นที่การช่วยเหลือลูกค้าในการสร้าง ฝึกอบรม ปรับใช้ และโยกย้ายปริมาณงานการเรียนรู้ของเครื่อง (ML) ไปยัง SageMaker ก่อนหน้านี้เขาเคยทำงานในอุตสาหกรรมเซมิคอนดักเตอร์โดยพัฒนาโมเดลคอมพิวเตอร์วิทัศน์ขนาดใหญ่ (CV) และการประมวลผลภาษาธรรมชาติ (NLP) เพื่อปรับปรุงกระบวนการเซมิคอนดักเตอร์ ในเวลาว่าง เขาชอบเล่นหมากรุกและท่องเที่ยว

การจัดการโมเดลสำหรับโมเดล LoRA ที่ปรับแต่งอย่างละเอียดโดยใช้ Llama2 และ Amazon SageMaker | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI. เมซิท กุนกอร์ เป็นสถาปนิกโซลูชันผู้เชี่ยวชาญด้าน AI/ML ของ AWS ที่ช่วยลูกค้าออกแบบและสร้างโซลูชัน AI/ML ในวงกว้าง เขาครอบคลุมกรณีการใช้งาน AI/ML ที่หลากหลายสำหรับลูกค้าโทรคมนาคม และปัจจุบันมุ่งเน้นไปที่ Generative AI, LLM และการเพิ่มประสิทธิภาพการฝึกอบรมและการอนุมาน เขามักจะพบเห็นการเดินป่าในถิ่นทุรกันดารหรือเล่นเกมกระดานกับเพื่อน ๆ ในเวลาว่าง

เชลบี ไอเกนโบรด เป็นหัวหน้าสถาปนิกโซลูชัน AI และ Machine Learning Specialist Solutions ที่ Amazon Web Services (AWS) เธอทำงานด้านเทคโนโลยีมาเป็นเวลา 24 ปีในหลากหลายอุตสาหกรรม เทคโนโลยี และบทบาท ปัจจุบันเธอกำลังมุ่งเน้นไปที่การรวมพื้นหลัง DevOps และ ML เข้ากับโดเมนของ MLOps เพื่อช่วยลูกค้าในการส่งมอบและจัดการปริมาณงาน ML ตามขนาด ด้วยสิทธิบัตรกว่า 35 ฉบับที่มอบให้ในโดเมนเทคโนโลยีต่างๆ เธอมีความหลงใหลในการสร้างสรรค์นวัตกรรมอย่างต่อเนื่องและใช้ข้อมูลเพื่อขับเคลื่อนผลลัพธ์ทางธุรกิจ Shelbee เป็นผู้ร่วมสร้างและผู้สอนความเชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลเชิงปฏิบัติใน Coursera เธอยังเป็นผู้อำนวยการร่วมของ Women In Big Data (WiBD) ที่เมืองเดนเวอร์ด้วย ในเวลาว่าง เธอชอบที่จะใช้เวลากับครอบครัว เพื่อนฝูง และสุนัขที่โอ้อวด

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/model-management-for-lora-fine-tuned-models-using-llama2-and-amazon-sagemaker/

ประทับเวลา: November 14, 2023

ประทับเวลา: Mar 1, 2024

เผยแพร่ซ้ำโดยเพลโต

สร้างการกำหนดเป้าหมายตามบริบทตามอนุกรมวิธานโดยใช้ AWS Media Intelligence และ Hugging Face BERT

Sportradar ใช้ Deep Java Library เพื่อสร้างแพลตฟอร์ม ML ระดับการผลิตเพื่อเพิ่มประสิทธิภาพและประสิทธิภาพได้อย่างไร

ByteDance ช่วยประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia

การติดฉลากล่วงหน้า PDF อัตโนมัติสำหรับ Amazon Comprehend | อเมซอนเว็บเซอร์วิส

ปรับแต่งกฎเกณฑ์ทางธุรกิจสำหรับการประมวลผลเอกสารอัจฉริยะด้วยการตรวจทานโดยเจ้าหน้าที่และการแสดงภาพ BI

ปรับปรุงการวิจัยที่มีมูลค่าสูงด้วย Hugging Face และจุดสิ้นสุดการอนุมานแบบอะซิงโครนัสของ Amazon SageMaker

เร่งความเร็วการอนุมานของ Amazon SageMaker ด้วยอินสแตนซ์ Amazon EC6 ที่ใช้ C2i Intel

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้