แก้ไขปัญหาการรวมการฝึกอบรมแบบกระจายอย่างมีประสิทธิภาพด้วยการปรับแต่งโมเดลอัตโนมัติของ Amazon SageMaker Hyperband

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ในช่วงไม่กี่ปีที่ผ่านมาแสดงให้เห็นถึงการเติบโตอย่างน่าทึ่งของโครงข่ายประสาทเทียมสำหรับการเรียนรู้เชิงลึก (DNN) การเติบโตนี้สามารถเห็นได้ในรูปแบบที่แม่นยำยิ่งขึ้น และยังเปิดโอกาสใหม่ๆ ด้วย AI เชิงกำเนิด: โมเดลภาษาขนาดใหญ่ (LLM) ที่สังเคราะห์ภาษาธรรมชาติ ตัวสร้างข้อความเป็นรูปภาพ และอื่นๆ ความสามารถที่เพิ่มขึ้นของ DNN มาพร้อมกับต้นทุนของการมีโมเดลขนาดใหญ่ที่ต้องใช้ทรัพยากรการคำนวณจำนวนมากเพื่อรับการฝึกอบรม การฝึกอบรมแบบกระจายแก้ปัญหานี้ด้วยสองเทคนิค: ความขนานของข้อมูลและความขนานของแบบจำลอง ความเท่าเทียมกันของข้อมูลถูกนำมาใช้เพื่อปรับขนาดกระบวนการฝึกอบรมบนโหนดและคนงานหลายโหนด และความขนานของแบบจำลองจะแยกแบบจำลองและพอดีกับโครงสร้างพื้นฐานที่กำหนด อเมซอน SageMaker กระจายการฝึกอบรม งานช่วยให้คุณสามารถคลิกเพียงครั้งเดียว (หรือการเรียก API หนึ่งครั้ง) เพื่อตั้งค่าคลัสเตอร์การคำนวณแบบกระจาย ฝึกโมเดล บันทึกผลลัพธ์ไปยัง บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) และปิดคลัสเตอร์เมื่อเสร็จสิ้น นอกจากนี้ SageMaker ยังได้สร้างสรรค์สิ่งใหม่ๆ อย่างต่อเนื่องในพื้นที่การฝึกอบรมแบบกระจาย โดยเปิดตัวคุณลักษณะต่างๆ เช่น กระจุกที่ต่างกัน และแจกห้องสมุดอบรมให้กับ ความเท่าเทียมกันของข้อมูล และ แบบจำลองขนาน.

การฝึกอบรมอย่างมีประสิทธิภาพในสภาพแวดล้อมแบบกระจายจำเป็นต้องปรับไฮเปอร์พารามิเตอร์ ตัวอย่างทั่วไปของแนวทางปฏิบัติที่ดีเมื่อฝึก GPU หลายตัวคือการคูณขนาดแบตช์ (หรือมินิแบตช์) ด้วยหมายเลข GPU เพื่อรักษาขนาดแบตช์ต่อ GPU ให้เท่ากัน อย่างไรก็ตาม การปรับไฮเปอร์พารามิเตอร์มักจะส่งผลต่อการบรรจบกันของโมเดล ดังนั้น การฝึกอบรมแบบกระจายจำเป็นต้องสร้างความสมดุลให้กับปัจจัยสามประการ: การกระจาย ไฮเปอร์พารามิเตอร์ และความแม่นยำของโมเดล

ในโพสต์นี้ เราจะสำรวจผลของการฝึกอบรมแบบกระจายต่อคอนเวอร์เจนซ์และวิธีใช้ การปรับโมเดลอัตโนมัติของ Amazon SageMaker เพื่อปรับแต่งไฮเปอร์พารามิเตอร์ของโมเดลอย่างละเอียดสำหรับการฝึกอบรมแบบกระจายโดยใช้ข้อมูลคู่ขนาน

ซอร์สโค้ดที่กล่าวถึงในโพสต์นี้สามารถพบได้บน พื้นที่เก็บข้อมูล GitHub (แนะนำให้ใช้อินสแตนซ์ m5.xlarge)

ปรับขนาดการฝึกอบรมจากสภาพแวดล้อมเดียวไปสู่สภาพแวดล้อมแบบกระจาย

ความเท่าเทียมกันของข้อมูลเป็นวิธีการปรับขนาดกระบวนการฝึกอบรมเป็นทรัพยากรการคำนวณหลายรายการและบรรลุเวลาการฝึกอบรมที่เร็วขึ้น ด้วยความขนานของข้อมูล ข้อมูลจะถูกแบ่งพาร์ติชันระหว่างโหนดคอมพิวท์ และแต่ละโหนดจะคำนวณการไล่ระดับสีตามพาร์ติชันและอัปเดตโมเดล การอัปเดตเหล่านี้สามารถทำได้โดยใช้เซิร์ฟเวอร์พารามิเตอร์หนึ่งตัวหรือหลายตัวในรูปแบบอะซิงโครนัส แบบหนึ่งต่อกลุ่ม หรือทั้งหมดต่อทั้งหมด อีกวิธีหนึ่งคือใช้อัลกอริทึม AllReduce ตัวอย่างเช่น ในอัลกอริธึม ring-allreduce แต่ละโหนดจะสื่อสารกับโหนดข้างเคียงเพียงสองโหนด ซึ่งจะช่วยลดการถ่ายโอนข้อมูลโดยรวม หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับเซิร์ฟเวอร์พารามิเตอร์และ ring-allreduce โปรดดูที่ เปิดใช้งานการฝึกอบรมแบบกระจาย TensorFlow อย่างง่ายดายด้วย Horovod หรือ Parameter Servers ใน Amazon SageMaker. เกี่ยวกับการแบ่งพาร์ติชั่นข้อมูล ถ้ามี n โหนดคอมพิวท์ แต่ละโหนดควรได้รับชุดย่อยของข้อมูล ประมาณ 1/n ในขนาด.

เพื่อแสดงผลของการปรับขนาดการฝึกอบรมเกี่ยวกับการบรรจบกันของโมเดล เราทำการทดลองง่ายๆ สองแบบ:

การฝึกโมเดลแต่ละครั้งดำเนินการสองครั้ง: ในอินสแตนซ์เดียวและกระจายไปหลายอินสแตนซ์ สำหรับการฝึกอบรมแบบกระจาย DNN เพื่อใช้โปรเซสเซอร์แบบกระจายอย่างเต็มที่ เราคูณขนาดมินิแบทช์ด้วยจำนวนอินสแตนซ์ (สี่) ตารางต่อไปนี้สรุปการตั้งค่าและผลลัพธ์

ประเภทปัญหา	การจำแนกรูปภาพ		การจำแนกไบนารี
รุ่น	DNN		XGBoost
ตัวอย่าง	ml.c4.xlarge		มล.m5.2xlarge
ชุดข้อมูล	สวพ.FMXNUMX (ภาพที่มีป้ายกำกับ)		การตลาดทางตรง (หมวดหมู่แบบตาราง ตัวเลข และเวกเตอร์)
เมตริกการตรวจสอบ	ความถูกต้อง		AUC
Epocs/รอบ	20		150
จำนวนอินสแตนซ์	1	4	1	3
ประเภทการจำหน่าย	N / A	เซิร์ฟเวอร์พารามิเตอร์	N / A	ลดทั้งหมด
เวลาฝึก (นาที)	8	3	3	1
คะแนนการตรวจสอบขั้นสุดท้าย	0.97	0.11	0.78	0.63

สำหรับทั้งสองรุ่น เวลาการฝึกลดลงเกือบเป็นเส้นตรงตามปัจจัยการกระจาย อย่างไรก็ตาม การบรรจบกันของโมเดลลดลงอย่างมาก ลักษณะการทำงานนี้สอดคล้องกันสำหรับสองโมเดลที่แตกต่างกัน อินสแตนซ์การประมวลผลที่แตกต่างกัน วิธีการกระจายที่แตกต่างกัน และประเภทข้อมูลที่แตกต่างกัน เหตุใดการกระจายกระบวนการฝึกอบรมจึงส่งผลต่อความแม่นยำของโมเดล

มีหลายทฤษฎีที่พยายามอธิบายผลกระทบนี้:

เมื่อการปรับปรุงเทนเซอร์มีขนาดใหญ่ การรับส่งข้อมูลระหว่างผู้ปฏิบัติงานและเซิร์ฟเวอร์พารามิเตอร์อาจแออัดได้ ดังนั้น เซิร์ฟเวอร์พารามิเตอร์แบบอะซิงโครนัสจะประสบปัญหาการบรรจบกันที่แย่ลงอย่างมากเนื่องจากความล่าช้าในการอัปเดตน้ำหนัก [1]
การเพิ่มขนาดแบทช์อาจนำไปสู่ความพอดีและการจัดวางทั่วไปที่ไม่ดี ซึ่งส่งผลให้ความแม่นยำในการตรวจสอบลดลง [2]
เมื่ออัปเดตพารามิเตอร์โมเดลแบบอะซิงโครนัส DNN บางตัวอาจไม่ได้ใช้น้ำหนักโมเดลที่อัปเดตล่าสุด ดังนั้นพวกเขาจะคำนวณการไล่ระดับสีตามน้ำหนักที่มีการวนซ้ำไม่กี่ครั้ง สิ่งนี้นำไปสู่การค้างของน้ำหนัก [3] และเกิดได้จากหลายสาเหตุ
ไฮเปอร์พารามิเตอร์บางตัวเป็นโมเดลหรือเครื่องมือเพิ่มประสิทธิภาพเฉพาะ ตัวอย่างเช่น เอกสารอย่างเป็นทางการของ XGBoost กล่าวว่า exact ค่าสำหรับ tree_mode ไฮเปอร์พารามิเตอร์ไม่รองรับการฝึกอบรมแบบกระจายเนื่องจาก XGBoost ใช้การกระจายข้อมูลแบบแยกแถวในขณะที่ exact วิธีการแบบต้นไม้ทำงานในรูปแบบคอลัมน์ที่เรียงลำดับ
นักวิจัยบางคนเสนอว่าการกำหนดค่ามินิแบทช์ที่ใหญ่ขึ้นอาจนำไปสู่การไล่ระดับสีที่มีความสุ่มน้อยกว่า กรณีนี้อาจเกิดขึ้นได้เมื่อฟังก์ชันการสูญเสียมีจุดต่ำสุดและจุดอานม้าเฉพาะที่ และไม่มีการเปลี่ยนแปลงขนาดสเต็ป การเพิ่มประสิทธิภาพติดขัดในจุดต่ำสุดหรือจุดอานม้าในท้องถิ่นดังกล่าว [4]

เพิ่มประสิทธิภาพสำหรับการฝึกอบรมแบบกระจาย

Hyperparameter optimization (HPO) เป็นกระบวนการค้นหาและเลือกชุดของ hyperparameters ที่เหมาะสมที่สุดสำหรับอัลกอริทึมการเรียนรู้ SageMaker Automatic Model Tuning (AMT) ให้บริการ HPO เป็นบริการที่มีการจัดการโดยการเรียกใช้งานการฝึกอบรมหลายรายการในชุดข้อมูลที่มีให้ SageMaker AMT จะค้นหาช่วงของไฮเปอร์พารามิเตอร์ที่คุณระบุและส่งคืนค่าที่ดีที่สุด ตามที่วัดโดยเมตริกที่คุณเลือก คุณสามารถใช้ SageMaker AMT กับอัลกอริทึมในตัวหรือใช้อัลกอริทึมและคอนเทนเนอร์ที่คุณกำหนดเอง

อย่างไรก็ตาม การเพิ่มประสิทธิภาพสำหรับการฝึกอบรมแบบกระจายแตกต่างจาก HPO ทั่วไป เนื่องจากแทนที่จะเปิดใช้อินสแตนซ์เดียวต่องานการฝึกอบรม แต่ละงานจะเปิดใช้คลัสเตอร์ของอินสแตนซ์จริงๆ ซึ่งหมายถึงผลกระทบต่อต้นทุนที่มากขึ้น (โดยเฉพาะอย่างยิ่งหากคุณพิจารณาอินสแตนซ์ที่เร่งด้วย GPU ซึ่งมีราคาแพง ซึ่งเป็นเรื่องปกติสำหรับ DNN) นอกจาก ขีดจำกัด AMTคุณอาจจะตี ขีดจำกัดของบัญชี SageMaker สำหรับจำนวนอินสแตนซ์การฝึกอบรมพร้อมกัน สุดท้าย การเปิดตัวคลัสเตอร์สามารถแนะนำค่าใช้จ่ายในการดำเนินการเนื่องจากเวลาเริ่มต้นที่นานขึ้น SageMaker AMT มีคุณสมบัติเฉพาะเพื่อแก้ไขปัญหาเหล่านี้ ไฮเปอร์แบนด์ที่มีการหยุดก่อนกำหนด ตรวจสอบให้แน่ใจว่าการกำหนดค่าไฮเปอร์พารามิเตอร์ที่ทำงานได้ดีได้รับการปรับแต่งอย่างละเอียด และการกำหนดค่าที่ต่ำกว่าจะถูกหยุดโดยอัตโนมัติ ช่วยให้ใช้เวลาฝึกอบรมได้อย่างมีประสิทธิภาพและลดค่าใช้จ่ายที่ไม่จำเป็น นอกจากนี้ SageMaker AMT ยังรองรับการใช้งาน Amazon EC2 Spot Instances อย่างสมบูรณ์ ซึ่งสามารถเพิ่มประสิทธิภาพ ค่าใช้จ่ายในการฝึกอบรมสูงถึง 90% เหนืออินสแตนซ์ตามความต้องการ สำหรับเวลาเริ่มต้นที่ยาวนาน SageMaker AMT จะใช้อินสแตนซ์การฝึกอบรมซ้ำโดยอัตโนมัติภายในงานปรับแต่งแต่ละงาน จึงช่วยลดเวลาเริ่มต้นโดยเฉลี่ยของแต่ละงาน งานฝึกอบรมถึง 20 เท่า. นอกจากนี้คุณควรปฏิบัติตาม แนวปฏิบัติที่ดีที่สุดของ AMTเช่น การเลือกไฮเปอร์พารามิเตอร์ที่เกี่ยวข้อง ช่วงและสเกลที่เหมาะสม และจำนวนงานฝึกอบรมพร้อมกันที่ดีที่สุด และการตั้งค่าเมล็ดพันธุ์แบบสุ่มเพื่อสร้างผลลัพธ์ซ้ำ

ในหัวข้อถัดไป เราจะเห็นคุณลักษณะเหล่านี้ทำงานในขณะที่เรากำหนดค่า รัน และวิเคราะห์งาน AMT โดยใช้ตัวอย่าง XGBoost ที่เรากล่าวถึงก่อนหน้านี้

กำหนดค่า เรียกใช้ และวิเคราะห์งานการปรับแต่ง

ดังที่ได้กล่าวไว้ก่อนหน้านี้ ซอร์สโค้ดสามารถพบได้บน repo GitHub. ในขั้นตอนที่ 1–5 เราดาวน์โหลดและเตรียมข้อมูล สร้าง xgb3 ตัวประมาณค่า (ตัวประมาณค่า XGBoost แบบกระจายถูกตั้งค่าให้ใช้สามอินสแตนซ์) รันงานการฝึกอบรม และสังเกตผลลัพธ์ ในส่วนนี้ เราจะอธิบายวิธีตั้งค่างานปรับแต่งสำหรับตัวประมาณนั้น โดยถือว่าคุณได้ผ่านขั้นตอนที่ 1-5 แล้ว

งานปรับแต่งจะคำนวณไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดสำหรับงานฝึกอบรมที่เปิดตัวโดยใช้เมตริกเพื่อประเมินประสิทธิภาพ คุณสามารถ กำหนดค่าเมตริกของคุณเองซึ่ง SageMaker จะแยกวิเคราะห์ตาม regex ที่คุณกำหนดค่าและเผยแพร่ stdoutหรือใช้เมตริกของ อัลกอริทึมในตัวของ SageMaker. ในตัวอย่างนี้ เราใช้ ตัวชี้วัดวัตถุประสงค์ XGBoost ในตัวเราจึงไม่ต้องกำหนดค่า regex เพื่อเพิ่มประสิทธิภาพสำหรับการบรรจบกันของโมเดล เราปรับให้เหมาะสมตามเมตริก AUC ที่ตรวจสอบความถูกต้อง:

objective_metric_name="validation:auc"

เราปรับไฮเปอร์พารามิเตอร์เจ็ดรายการ:

num_round – จำนวนรอบสำหรับการเร่งความเร็วระหว่างการฝึก
การทางพิเศษแห่งประเทศไทย – การหดตัวของขนาดขั้นตอนใช้ในการอัปเดตเพื่อป้องกันการโอเวอร์ฟิต
แอลฟา – L1 เงื่อนไขการทำให้เป็นมาตรฐานเกี่ยวกับน้ำหนัก
ขั้นต่ำ_เด็ก_น้ำหนัก – ผลรวมขั้นต่ำของน้ำหนักอินสแตนซ์ (เฮสเซียน) ที่จำเป็นในเด็ก หากขั้นตอนของพาร์ติชันแบบทรีส่งผลให้โหนดปลายสุดมีผลรวมของน้ำหนักอินสแตนซ์น้อยกว่า min_child_weightกระบวนการสร้างทำให้การแบ่งพาร์ติชันเพิ่มขึ้น
ความลึกสูงสุด - ความลึกสูงสุดของต้นไม้
colsample_bylevel – อัตราส่วนตัวอย่างย่อยของคอลัมน์สำหรับแต่ละการแบ่ง ในแต่ละระดับ การสุ่มตัวอย่างย่อยนี้จะเกิดขึ้นหนึ่งครั้งสำหรับทุก ๆ ระดับความลึกใหม่ที่ไปถึงในแผนผัง
colsample_bytree – อัตราส่วนตัวอย่างย่อยของคอลัมน์เมื่อสร้างต้นไม้แต่ละต้น สำหรับต้นไม้ทุกต้นที่สร้างขึ้น การสุ่มตัวอย่างย่อยจะเกิดขึ้นหนึ่งครั้ง

หากต้องการเรียนรู้เพิ่มเติมเกี่ยวกับไฮเปอร์พารามิเตอร์ XGBoost โปรดดู XGBoost ไฮเปอร์พารามิเตอร์. รหัสต่อไปนี้แสดงไฮเปอร์พารามิเตอร์ทั้งเจ็ดและช่วง:

hyperparameter_ranges = { "num_round": IntegerParameter(100, 200), "eta": ContinuousParameter(0, 1), "min_child_weight": ContinuousParameter(1, 10), "alpha": ContinuousParameter(0, 2), "max_depth": IntegerParameter(1, 10), "colsample_bylevel": ContinuousParameter(0, 1), "colsample_bytree": ContinuousParameter(0, 1),
}

ต่อไปเราให้บริการ การกำหนดค่าสำหรับกลยุทธ์ Hyperband และการกำหนดค่าวัตถุจูนเนอร์โดยใช้ SageMaker SDK HyperbandStrategyConfig สามารถใช้สองพารามิเตอร์: max_resource (ไม่บังคับ) สำหรับจำนวนการทำซ้ำสูงสุดที่จะใช้สำหรับงานฝึกอบรมเพื่อให้บรรลุวัตถุประสงค์ และ min_resource – จำนวนการวนซ้ำขั้นต่ำที่งานการฝึกใช้ก่อนที่จะหยุดการฝึก เราใช้ HyperbandStrategyConfig เพื่อกำหนดค่า StrategyConfigซึ่งใช้ในภายหลังโดยนิยามงานการปรับแต่ง ดูรหัสต่อไปนี้:

hsc = HyperbandStrategyConfig(max_resource=30, min_resource=1)
sc = StrategyConfig(hyperband_strategy_config=hsc)

ตอนนี้เราสร้าง HyperparameterTuner วัตถุที่เราส่งข้อมูลต่อไปนี้:

ตัวประมาณค่า XGBoost ตั้งค่าให้รันด้วยสามอินสแตนซ์
ชื่อเมตริกวัตถุประสงค์และคำจำกัดความ
ช่วงไฮเปอร์พารามิเตอร์ของเรา
ปรับแต่งการกำหนดค่าทรัพยากร เช่น จำนวนงานฝึกอบรมที่จะรันทั้งหมด และจำนวนงานฝึกอบรมที่สามารถรันพร้อมกันได้
การตั้งค่าไฮเปอร์แบนด์ (กลยุทธ์และการกำหนดค่าที่เรากำหนดค่าในขั้นตอนสุดท้าย)
หยุดก่อนกำหนด (early_stopping_type) ตั้งค่าให้ Off

เหตุใดเราจึงตั้งค่าการหยุดก่อนกำหนดเป็นปิด งานการฝึกอบรมสามารถหยุดก่อนกำหนดได้เมื่อไม่น่าจะปรับปรุงเมตริกวัตถุประสงค์ของงานการปรับไฮเปอร์พารามิเตอร์ วิธีนี้สามารถช่วยลดเวลาในการประมวลผลและหลีกเลี่ยงการใช้โมเดลของคุณมากเกินไป อย่างไรก็ตาม Hyperband ใช้กลไกในตัวขั้นสูงเพื่อใช้การหยุดก่อนกำหนด ดังนั้นพารามิเตอร์ early_stopping_type ต้องตั้งค่าเป็น Off เมื่อใช้คุณสมบัติการหยุดก่อนกำหนดภายใน Hyperband ดูรหัสต่อไปนี้:

tuner = HyperparameterTuner( xgb3, objective_metric_name, hyperparameter_ranges, max_jobs=30, max_parallel_jobs=4, strategy="Hyperband", early_stopping_type="Off", strategy_config=sc
)

สุดท้าย เราเริ่มงานปรับแต่งโมเดลอัตโนมัติโดยเรียก พอดี วิธี. หากคุณต้องการเปิดงานในแบบอะซิงโครนัส ให้ตั้งค่า wait ไปยัง False. ดูรหัสต่อไปนี้:

tuner.fit(
{"train": s3_input_train, "validation": s3_input_validation},
include_cls_metadata=False,
wait=True,
)

คุณสามารถติดตามความคืบหน้าของงานและสรุปได้ในคอนโซล SageMaker ในบานหน้าต่างนำทาง ภายใต้ การฝึกอบรมเลือก งานปรับแต่งไฮเปอร์พารามิเตอร์จากนั้นเลือกงานปรับแต่งที่เกี่ยวข้อง ภาพหน้าจอต่อไปนี้แสดงงานการปรับแต่งพร้อมรายละเอียดเกี่ยวกับสถานะและประสิทธิภาพของงานการฝึกอบรม

เมื่องานการปรับแต่งเสร็จสิ้น เราสามารถตรวจสอบผลลัพธ์ได้ ในตัวอย่างสมุดบันทึก เราแสดงวิธีแยกผลลัพธ์โดยใช้ SageMaker SDK ขั้นแรก เราตรวจสอบว่างานการปรับแต่งเพิ่มการบรรจบกันของโมเดลได้อย่างไร คุณสามารถแนบไฟล์ HyperparameterTuner วัตถุโดยใช้ชื่องานและโทร บรรยาย วิธี. เมธอดส่งคืนพจนานุกรมที่มีข้อมูลเมตาของงานปรับแต่งและผลลัพธ์

ในโค้ดต่อไปนี้ เราดึงค่าของงานฝึกอบรมที่มีประสิทธิภาพดีที่สุด โดยวัดจากเมตริกวัตถุประสงค์ของเรา (การตรวจสอบ AUC):

tuner = HyperparameterTuner.attach(tuning_job_name=tuning_job_name)
tuner.describe()["BestTrainingJob"]["FinalHyperParameterTuningJobObjectiveMetric"]["Value"]

ผลลัพธ์คือ 0.78 ใน AUC ในชุดการตรวจสอบ นั่นเป็นการปรับปรุงที่สำคัญจาก 0.63 เริ่มต้น!

ต่อไปมาดูกันว่างานฝึกอบรมของเราดำเนินไปเร็วแค่ไหน สำหรับสิ่งนั้นเราใช้ ไฮเปอร์พารามิเตอร์การปรับแต่งJobAnalytics วิธีการใน SDK เพื่อดึงผลลัพธ์เกี่ยวกับงานปรับแต่ง และอ่านในกรอบข้อมูล Pandas เพื่อการวิเคราะห์และการแสดงภาพ:

tuner_analytics = sagemaker.HyperparameterTuningJobAnalytics(tuning_job_name)
full_df = tuner_analytics.dataframe()
full_df.sort_values(by=["FinalObjectiveValue"], ascending=False).head()

มาดูเวลาเฉลี่ยที่งานฝึกอบรมใช้กับกลยุทธ์ Hyperband:

full_df["TrainingElapsedTimeSeconds"].mean()

เวลาเฉลี่ยใช้เวลาประมาณ 1 นาที สิ่งนี้สอดคล้องกับกลไกกลยุทธ์ Hyperband ที่จะหยุดงานฝึกอบรมที่มีประสิทธิภาพต่ำตั้งแต่เนิ่นๆ ในแง่ของค่าใช้จ่าย งานปรับแต่งเรียกเก็บเงินจากเราเป็นเวลาฝึกอบรมทั้งหมด 30 นาที หากไม่มีการหยุด Hyperband ก่อนกำหนด ระยะเวลาการฝึกอบรมที่เรียกเก็บเงินทั้งหมดคาดว่าจะเป็น 90 นาที (30 งาน * 1 นาทีต่องาน * 3 อินสแตนซ์ต่องาน) ที่ช่วยประหยัดต้นทุนได้ดีกว่าถึง 30 เท่า! ในที่สุด เราเห็นว่างานปรับแต่งทำงานฝึกอบรม 12 งานและใช้เวลาทั้งหมด 50 นาที ซึ่งน้อยกว่าเวลาที่คาดไว้เกือบ 30% (4 งาน/3 งานพร้อมกัน * XNUMX นาทีต่องาน)

สรุป

ในโพสต์นี้ เราได้อธิบายปัญหาคอนเวอร์เจนซ์ที่สังเกตได้เมื่อฝึกโมเดลด้วยสภาพแวดล้อมแบบกระจาย เราเห็นว่า SageMaker AMT ที่ใช้ Hyperband จัดการกับข้อกังวลหลักที่การเพิ่มประสิทธิภาพการฝึกอบรมแบบกระจายข้อมูลแบบคู่ขนานแนะนำ: การบรรจบกัน (ซึ่งปรับปรุงมากกว่า 10%) ประสิทธิภาพการดำเนินงาน (งานปรับแต่งใช้เวลาน้อยกว่างานต่อเนื่องที่ไม่ได้ปรับให้เหมาะสมถึง 50% ดำเนินการไปแล้ว) และคุ้มค่า (30 เทียบกับเวลางานฝึกอบรม 90 นาทีที่เรียกเก็บเงินได้) ตารางต่อไปนี้สรุปผลลัพธ์ของเรา:

เมตริกการปรับปรุง	ไม่มีการปรับแต่ง / การปรับแต่งโมเดลไร้เดียงสา	SageMaker Hyperband การปรับแต่งโมเดลอัตโนมัติ	การปรับปรุงที่วัดได้
คุณภาพของแบบจำลอง (วัดจากการตรวจสอบ AUC)	0.63	0.78	15%
ราคา (วัดจากนาทีการฝึกอบรมที่เรียกเก็บเงินได้)	90	30	66%
ประสิทธิภาพการดำเนินงาน (วัดจากระยะเวลาการทำงานทั้งหมด)	24	12	50%

ในการปรับอย่างละเอียดเกี่ยวกับการปรับขนาด (ขนาดคลัสเตอร์) คุณสามารถทำซ้ำงานปรับแต่งด้วยการกำหนดค่าคลัสเตอร์หลายรายการ และเปรียบเทียบผลลัพธ์เพื่อค้นหาไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดที่ตอบสนองความเร็วและความแม่นยำของโมเดล

เราได้รวมขั้นตอนในการบรรลุสิ่งนี้ไว้ในส่วนสุดท้ายของ สมุดบันทึก.

อ้างอิง

[1] Lian, Xiangru และคณะ “การไล่ระดับสีแบบสุ่มแบบกระจายอำนาจแบบอะซิงโครนัสแบบขนาน” การประชุมนานาชาติด้านการเรียนรู้ของเครื่อง. พม., 2018.

[2] เคสการ์ นิทิช ชีริช และคณะ “ในการฝึกอบรมจำนวนมากสำหรับการเรียนรู้เชิงลึก: ช่องว่างทั่วไปและจุดต่ำสุดที่คมชัด” arXiv preprint arXiv: 1609.04836 (2016)

[3] Dai, Wei และคณะ “เพื่อทำความเข้าใจผลกระทบของความไม่แน่นอนในการเรียนรู้ของเครื่องแบบกระจาย” arXiv preprint arXiv: 1810.03264 (2018)

[4] Dauphin, Yann N. และคณะ “การระบุและโจมตีปัญหาจุดอานในการเพิ่มประสิทธิภาพแบบไม่นูนในมิติสูง” ความก้าวหน้าของระบบประมวลผลข้อมูลประสาท 27 (2014)

เกี่ยวกับผู้เขียน

แก้ไขปัญหาการรวมการฝึกอบรมแบบกระจายอย่างมีประสิทธิภาพด้วย Amazon SageMaker Hyperband Automatic Model Tuning | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI. Uri Rosenberg เป็นผู้จัดการด้านเทคนิคของ AI & ML Specialist ประจำยุโรป ตะวันออกกลาง และแอฟริกา Uri มีฐานอยู่ที่ประเทศอิสราเอล โดยทำงานเพื่อให้อำนาจแก่ลูกค้าองค์กรในการออกแบบ สร้าง และดำเนินการปริมาณงาน ML ตามขนาด เวลาว่างชอบปั่นจักรยาน เดินป่า และบ่นเรื่องการเตรียมข้อมูล

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. ยานยนต์ / EVs, คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
BlockOffsets การปรับปรุงการเป็นเจ้าของออฟเซ็ตด้านสิ่งแวดล้อมให้ทันสมัย เข้าถึงได้ที่นี่.
ที่มา: https://aws.amazon.com/blogs/machine-learning/effectively-solve-distributed-training-convergence-issues-with-amazon-sagemaker-hyperband-automatic-model-tuning/

ประทับเวลา: กรกฎาคม 13, 2023

ประทับเวลา: May 25, 2023

แก้ปัญหาการบรรจบกันของการฝึกอบรมแบบกระจายอย่างมีประสิทธิภาพด้วย Amazon SageMaker Hyperband Automatic Model Tuning | บริการเว็บอเมซอน

เผยแพร่ซ้ำโดยเพลโต

ปรับขนาดการฝึกอบรมจากสภาพแวดล้อมเดียวไปสู่สภาพแวดล้อมแบบกระจาย

เพิ่มประสิทธิภาพสำหรับการฝึกอบรมแบบกระจาย

กำหนดค่า เรียกใช้ และวิเคราะห์งานการปรับแต่ง

สรุป

อ้างอิง

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

คอมพิวเตอร์วิทัศน์โดยใช้ชุดข้อมูลสังเคราะห์ที่มี Amazon Rekognition Custom Labels และ Dassault Systèmes 3DEXCITE

ประสิทธิภาพการปลดล็อก: การควบคุมพลังของ Selective Execution ใน Amazon SageMaker Pipelines | บริการเว็บอเมซอน

ปรับแต่งพารามิเตอร์ที่ผ่านการฝึกอบรมในชุดข้อมูลขนาดใหญ่โดยใช้ Amazon SageMaker Data Wrangler

เรียกใช้ PyTorch Lightning และ PyTorch DDP ดั้งเดิมบน Amazon SageMaker Training ที่มี Amazon Search

ค้นหาโปรเจ็กต์ Jira ของคุณอย่างชาญฉลาดด้วยตัวเชื่อมต่อระบบคลาวด์ของ Amazon Kendra Jira

แสดงภาพการวิเคราะห์ Amazon Comprehend ด้วย Word Cloud ใน Amazon QuickSight | อเมซอนเว็บเซอร์วิส

การจัดประเภทข้อความสำหรับการสนทนาออนไลน์ด้วยการเรียนรู้ของเครื่องบน AWS

ประกาศ AWS DeepRacer League 2022

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้