เลือกแหล่งข้อมูลที่ดีที่สุดสำหรับงานฝึกอบรม Amazon SageMaker ของคุณ

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

อเมซอน SageMaker เป็นบริการที่มีการจัดการที่ทำให้ง่ายต่อการสร้าง ฝึกฝน และปรับใช้โมเดลแมชชีนเลิร์นนิง (ML) นักวิทยาศาสตร์ข้อมูลใช้งานการฝึกอบรม SageMaker เพื่อฝึกโมเดล ML อย่างง่ายดาย คุณไม่ต้องกังวลกับการจัดการทรัพยากรการประมวลผล และจ่ายเฉพาะเวลาฝึกอบรมจริงเท่านั้น การนำเข้าข้อมูลเป็นส่วนสำคัญของไปป์ไลน์การฝึกอบรม และงานการฝึกอบรม SageMaker รองรับการจัดเก็บข้อมูลและโหมดอินพุตที่หลากหลาย เพื่อให้เหมาะกับปริมาณงานการฝึกอบรมที่หลากหลาย

โพสต์นี้ช่วยให้คุณเลือกแหล่งข้อมูลที่ดีที่สุดสำหรับกรณีการใช้งานการฝึกอบรม SageMaker ML ของคุณ เราแนะนำตัวเลือกแหล่งข้อมูลที่งานการฝึกอบรมของ SageMaker สนับสนุนโดยกำเนิด สำหรับแต่ละแหล่งข้อมูลและโหมดป้อนข้อมูล เราจะสรุปความง่ายในการใช้งาน ลักษณะประสิทธิภาพ ต้นทุน และข้อจำกัด เพื่อช่วยให้คุณเริ่มต้นได้อย่างรวดเร็ว เราจัดเตรียมไดอะแกรมที่มีตัวอย่างขั้นตอนการตัดสินใจที่คุณสามารถปฏิบัติตามตามลักษณะปริมาณงานหลักของคุณ สุดท้ายนี้ เราทำการวัดประสิทธิภาพหลายๆ อย่างสำหรับสถานการณ์การฝึกอบรมที่สมจริง เพื่อแสดงผลกระทบในทางปฏิบัติต่อต้นทุนและประสิทธิภาพการฝึกโดยรวม

แหล่งข้อมูล Native SageMaker และโหมดอินพุต

การอ่านข้อมูลการฝึกอย่างง่ายดายและยืดหยุ่นในวิธีที่มีประสิทธิภาพเป็นปัญหาที่เกิดซ้ำๆ สำหรับการฝึก ML SageMaker ช่วยลดความยุ่งยากในการนำเข้าข้อมูลด้วยการเลือกกลไกการนำเข้าข้อมูลที่มีประสิทธิภาพและมีปริมาณงานสูง ซึ่งเรียกว่าแหล่งข้อมูลและโหมดอินพุตที่เกี่ยวข้อง สิ่งนี้ทำให้คุณสามารถแยกโค้ดการฝึกออกจากแหล่งข้อมูลจริง ต่อเชื่อมระบบไฟล์โดยอัตโนมัติ อ่านด้วยประสิทธิภาพสูง เปิดการแบ่งส่วนข้อมูลระหว่าง GPU และอินสแตนซ์อย่างง่ายดายเพื่อเปิดใช้งานการขนานข้อมูล และสับเปลี่ยนข้อมูลอัตโนมัติเมื่อเริ่มต้นแต่ละยุค

กลไกการส่งผ่านข้อมูลการฝึกอบรม SageMaker ผสานรวมกับบริการพื้นที่จัดเก็บที่มีการจัดการของ AWS สามรายการ:

บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) เป็นบริการจัดเก็บอ็อบเจ็กต์ที่นำเสนอความสามารถในการปรับขนาด ความพร้อมใช้งานของข้อมูล ความปลอดภัย และประสิทธิภาพระดับแนวหน้าของอุตสาหกรรม
Amazon FSx สำหรับความมันวาว เป็นที่จัดเก็บข้อมูลที่ใช้ร่วมกันที่มีการจัดการเต็มรูปแบบพร้อมความสามารถในการปรับขนาดและประสิทธิภาพของระบบไฟล์ Luster ยอดนิยม โดยปกติแล้วจะเชื่อมโยงกับบัคเก็ต S3 ที่มีอยู่
ระบบไฟล์ Amazon Elastic (Amazon EFS) เป็นระบบไฟล์ที่ใช้ร่วมกันเพื่อวัตถุประสงค์ทั่วไป ปรับขนาดได้ และมีความพร้อมใช้งานสูง โดยมีระดับราคาหลายระดับ Amazon EFS เป็นแบบไร้เซิร์ฟเวอร์ และจะขยายและย่อขนาดโดยอัตโนมัติเมื่อคุณเพิ่มและลบไฟล์

การฝึกอบรม SageMaker ช่วยให้สคริปต์การฝึกอบรมของคุณเข้าถึงชุดข้อมูลที่จัดเก็บไว้ใน Amazon S3, FSx for Lustre หรือ Amazon EFS ได้ ราวกับว่ามีอยู่ในระบบไฟล์ในเครื่อง (ผ่านอินเทอร์เฟซระบบไฟล์ที่สอดคล้องกับ POSIX)

ด้วย Amazon S3 เป็นแหล่งข้อมูล คุณสามารถเลือกระหว่างโหมดไฟล์ โหมด FastFile และโหมดไปป์:

โหมดไฟล์ – SageMaker คัดลอกชุดข้อมูลจาก Amazon S3 ไปยังที่จัดเก็บอินสแตนซ์ ML ซึ่งเป็นไฟล์แนบ ร้านค้า Amazon Elastic Block โวลุ่ม (Amazon EBS) หรือโวลุ่ม NVMe SSD ก่อนที่สคริปต์การฝึกของคุณจะเริ่มต้น
โหมด FastFile – SageMaker เปิดเผยชุดข้อมูลที่อยู่ใน Amazon S3 เป็นระบบไฟล์ POSIX บนอินสแตนซ์การฝึกอบรม ไฟล์ชุดข้อมูลจะสตรีมจาก Amazon S3 ตามความต้องการเมื่อสคริปต์การฝึกอบรมของคุณอ่าน
โหมดท่อ – SageMaker สตรีมชุดข้อมูลที่อยู่ใน Amazon S3 ไปยังอินสแตนซ์การฝึกอบรม ML เป็นไพพ์ Unix ซึ่งสตรีมจาก Amazon S3 ตามความต้องการขณะที่สคริปต์การฝึกอบรมของคุณอ่านข้อมูลจากไปป์

ด้วย FSx for Luster หรือ Amazon EFS เป็นแหล่งข้อมูล SageMaker จะต่อเชื่อมระบบไฟล์ก่อนที่สคริปต์การฝึกของคุณจะเริ่มต้น

ช่องทางอินพุตการฝึกอบรม

เมื่อเริ่มงานการฝึกอบรม SageMaker คุณสามารถระบุการจัดการได้สูงสุด 20 รายการ ช่องทางการป้อนข้อมูลการฝึกอบรม. คุณสามารถคิดว่าแชนเนลเป็นหน่วยนามธรรมเพื่อบอกงานการฝึกอบรมว่าจะรับข้อมูลที่มีให้สำหรับรหัสอัลกอริธึมเพื่ออ่านจากเส้นทางระบบไฟล์ได้อย่างไรและที่ไหน (เช่น /opt/ml/input/data/input-channel-name) บนอินสแตนซ์ ML ช่องทางการฝึกอบรมที่เลือกจะถูกบันทึกเป็นส่วนหนึ่งของข้อมูลเมตาของงานฝึกอบรม เพื่อเปิดใช้งานการติดตามสายแบบจำลองที่สมบูรณ์สำหรับกรณีการใช้งาน เช่น ความสามารถในการทำซ้ำของงานฝึกอบรม หรือวัตถุประสงค์ในการกำกับดูแลแบบจำลอง

หากต้องการใช้ Amazon S3 เป็นแหล่งข้อมูล คุณต้องกำหนด a ข้อมูลการฝึกอบรม เพื่อระบุสิ่งต่อไปนี้:

โหมดป้อนข้อมูลของคุณ (โหมดไฟล์ FastFile หรือไปป์)
การกระจาย และ สับ องค์ประกอบ
An S3DataType เป็นหนึ่งในสามวิธีในการระบุอ็อบเจ็กต์ใน Amazon S3 ที่ประกอบเป็นชุดข้อมูลของคุณ:
- S3Prefix (วัตถุทั้งหมดภายใต้คำนำหน้า S3)
- ไฟล์ Manifest (รายการของวัตถุ S3)
- ไฟล์รายการเสริม (รายการของอ็อบเจ็กต์ S3 และป้ายกำกับที่เกี่ยวข้อง)

หรือสำหรับ FSx for Luster หรือ Amazon EFS คุณกำหนด a FileSystemInput.

ไดอะแกรมต่อไปนี้แสดงงานการฝึกห้างาน โดยแต่ละรายการกำหนดค่าด้วยแหล่งข้อมูลและโหมดอินพุตต่างกัน:

แหล่งข้อมูลและโหมดอินพุต

ส่วนต่อไปนี้ให้ข้อมูลเชิงลึกเกี่ยวกับความแตกต่างระหว่าง Amazon S3 (โหมดไฟล์ โหมด FastFile และโหมดไปป์) FSx for Lustre และ Amazon EFS เป็นกลไกการส่งผ่านข้อมูลของ SageMaker

โหมดไฟล์ Amazon S3

โหมดไฟล์เป็นโหมดป้อนข้อมูลเริ่มต้น (หากคุณไม่ได้ระบุอย่างชัดแจ้ง) และโหมดนี้จะใช้งานได้ง่ายยิ่งขึ้น เมื่อคุณใช้ตัวเลือกอินพุตนี้ SageMaker จะดาวน์โหลดชุดข้อมูลจาก Amazon S3 ลงในที่จัดเก็บอินสแตนซ์การฝึกอบรม ML (Amazon EBS หรือ NVMe ในเครื่องขึ้นอยู่กับประเภทอินสแตนซ์) ในนามของคุณก่อนเปิดใช้การฝึกโมเดล เพื่อให้สคริปต์การฝึกอบรมสามารถอ่านชุดข้อมูลจาก ระบบไฟล์ในเครื่อง ในกรณีนี้ อินสแตนซ์ต้องมีพื้นที่จัดเก็บเพียงพอเพื่อให้พอดีกับชุดข้อมูลทั้งหมด

คุณกำหนดค่าชุดข้อมูลสำหรับโหมดไฟล์โดยระบุคำนำหน้า S3 ไฟล์รายการ หรือไฟล์รายการเสริม

คุณควรใช้คำนำหน้า S3 เมื่อไฟล์ชุดข้อมูลทั้งหมดของคุณอยู่ภายในคำนำหน้า S3 ทั่วไป (โฟลเดอร์ย่อยใช้ได้)

ไฟล์ Manifest แสดงรายการไฟล์ที่ประกอบด้วยชุดข้อมูลของคุณ โดยทั่วไป คุณจะใช้ไฟล์ Manifest เมื่องานการประมวลผลข้อมูลล่วงหน้าส่งไฟล์ Manifest หรือเมื่อไฟล์ชุดข้อมูลของคุณถูกกระจายไปทั่วคำนำหน้า S3 หลายรายการ ไฟล์ Manifest ที่เสริมคือไฟล์บรรทัด JSON ซึ่งแต่ละบรรทัดมีรายการแอตทริบิวต์ เช่น การอ้างอิงไปยังไฟล์ใน Amazon S3 ควบคู่ไปกับแอตทริบิวต์เพิ่มเติม ซึ่งส่วนใหญ่เป็นป้ายกำกับ กรณีการใช้งานคล้ายกับรายการ

โหมดไฟล์เข้ากันได้กับ โหมดท้องถิ่นของ SageMaker (การเริ่มคอนเทนเนอร์การฝึก SageMaker แบบโต้ตอบในไม่กี่วินาที) สำหรับการฝึกอบรมแบบกระจาย คุณสามารถแบ่งกลุ่มข้อมูลในหลายอินสแตนซ์ด้วย ShardedByS3Key ตัวเลือก

ความเร็วในการดาวน์โหลดโหมดไฟล์ขึ้นอยู่กับขนาดชุดข้อมูล ขนาดไฟล์เฉลี่ย และจำนวนไฟล์ ตัวอย่างเช่น ยิ่งชุดข้อมูลมีขนาดใหญ่ขึ้น (หรือมีไฟล์มากขึ้น) ระยะการดาวน์โหลดก็จะยิ่งยาวขึ้น ในระหว่างที่ทรัพยากรการประมวลผลของอินสแตนซ์ยังคงไม่ได้ใช้งานอย่างมีประสิทธิภาพ เมื่อฝึกกับอินสแตนซ์ Spot ชุดข้อมูลจะถูกดาวน์โหลดทุกครั้งที่งานกลับมาทำงานอีกครั้งหลังจาก Spot หยุดชะงัก โดยปกติ การดาวน์โหลดข้อมูลจะเกิดขึ้นที่ประมาณ 200 MB/s สำหรับไฟล์ขนาดใหญ่ (เช่น 5 นาที/50 GB) ค่าใช้จ่ายในการเริ่มต้นนี้เป็นที่ยอมรับหรือไม่นั้นขึ้นอยู่กับระยะเวลาโดยรวมของงานการฝึกอบรมของคุณ เนื่องจากขั้นตอนการฝึกอบรมที่ยาวขึ้นหมายถึงขั้นตอนการดาวน์โหลดที่เล็กลงตามสัดส่วน

โหมด Amazon S3 FastFile

โหมด FastFile จะเปิดเผยออบเจ็กต์ S3 ผ่านอินเทอร์เฟซระบบไฟล์ที่สอดคล้องกับ POSIX ราวกับว่าไฟล์นั้นพร้อมใช้งานบนดิสก์ในเครื่องของอินสแตนซ์การฝึกของคุณ และสตรีมเนื้อหาตามต้องการเมื่อสคริปต์การฝึกใช้ข้อมูล ซึ่งหมายความว่าชุดข้อมูลของคุณไม่ต้องพอดีกับพื้นที่จัดเก็บอินสแตนซ์การฝึกอบรมอีกต่อไป และคุณไม่จำเป็นต้องรอให้ดาวน์โหลดชุดข้อมูลไปยังอินสแตนซ์การฝึกก่อนจึงจะเริ่มการฝึกได้

เพื่ออำนวยความสะดวกในเรื่องนี้ SageMaker จะแสดงรายการข้อมูลเมตาของออบเจ็กต์ทั้งหมดที่จัดเก็บไว้ภายใต้คำนำหน้า S3 ที่ระบุ ก่อนที่สคริปต์การฝึกอบรมของคุณจะทำงาน ข้อมูลเมตานี้ใช้เพื่อสร้างการอ่านอย่างเดียว FUSE (ระบบไฟล์ในพื้นที่ผู้ใช้) ที่มีให้สำหรับสคริปต์การฝึกอบรมของคุณผ่าน /opt/ml/data/training-channel-name. การแสดงรายการอ็อบเจ็กต์ S3 ทำงานเร็วถึง 5,500 ออบเจ็กต์ต่อวินาทีโดยไม่คำนึงถึงขนาด ซึ่งเร็วกว่าการดาวน์โหลดไฟล์ล่วงหน้ามาก เช่นเดียวกับโหมดไฟล์ ขณะที่สคริปต์การฝึกอบรมของคุณกำลังทำงาน สคริปต์สามารถแสดงรายการหรืออ่านไฟล์ได้เหมือนกับว่าไฟล์เหล่านั้นมีอยู่ในเครื่อง การดำเนินการอ่านแต่ละครั้งจะมอบหมายให้กับบริการ FUSE ซึ่งพร็อกซี GET ร้องขอไปยัง Amazon S3 เพื่อส่งเนื้อหาไฟล์จริงไปยังผู้โทร เช่นเดียวกับระบบไฟล์ในเครื่อง FastFile จะถือว่าไฟล์เป็นไบต์ ดังนั้นจึงไม่ยึดติดกับรูปแบบไฟล์ โหมด FastFile สามารถเข้าถึงทรูพุตได้มากกว่าหนึ่ง GB/s เมื่ออ่านไฟล์ขนาดใหญ่ตามลำดับโดยใช้ผู้ปฏิบัติงานหลายคน คุณสามารถใช้ FastFile เพื่ออ่านไฟล์ขนาดเล็กหรือเรียกช่วงไบต์แบบสุ่มได้ แต่คุณควรคาดหวังว่าจะมีปริมาณงานต่ำกว่าสำหรับรูปแบบการเข้าถึงดังกล่าว คุณสามารถปรับรูปแบบการเข้าถึงการอ่านให้เหมาะสมโดยจัดลำดับไฟล์ขนาดเล็กจำนวนมากลงในคอนเทนเนอร์ไฟล์ที่ใหญ่ขึ้น และอ่านตามลำดับ

ปัจจุบัน FastFile รองรับคำนำหน้า S3 เท่านั้น (ไม่รองรับรายการและรายการเสริม) และโหมด FastFile เข้ากันได้กับโหมดภายในเครื่อง SageMaker

โหมดท่อ Amazon S3

โหมดไปป์เป็นโหมดการสตรีมอีกโหมดหนึ่งซึ่งส่วนใหญ่แทนที่ด้วยโหมด FastFile ที่ใหม่กว่าและใช้งานง่ายกว่า

ด้วยโหมดไปป์ ข้อมูลจะถูกดึงล่วงหน้าจาก Amazon S3 ที่การทำงานพร้อมกันและปริมาณงานสูง และสตรีมไปยังไปป์ FIFO ที่ชื่อ Unix แต่ละไพพ์สามารถอ่านได้โดยกระบวนการเดียวเท่านั้น ส่วนขยายเฉพาะของ SageMaker สำหรับ TensorFlow ได้อย่างสะดวก รวมโหมดไปป์เข้ากับตัวโหลดข้อมูล TensorFlow ดั้งเดิม สำหรับการสตรีมข้อความ TFRecords หรือรูปแบบไฟล์ RecordIO โหมดไปป์ยังรองรับการแบ่งส่วนที่มีการจัดการและการสับเปลี่ยนข้อมูล

FSx สำหรับความมันวาว

FSx for Luster สามารถปรับขนาดเป็นทรูพุตหลายร้อย GB/s และ IOPS หลายล้านรายการพร้อมการดึงไฟล์ที่มีความหน่วงต่ำ

เมื่อเริ่มงานการฝึก SageMaker จะเมาต์ระบบไฟล์ FSx for Luster กับระบบไฟล์อินสแตนซ์การฝึก จากนั้นจึงเริ่มสคริปต์การฝึกของคุณ การติดตั้งตัวเองเป็นการดำเนินการที่ค่อนข้างเร็วซึ่งไม่ได้ขึ้นอยู่กับขนาดของชุดข้อมูลที่จัดเก็บไว้ใน FSx for Lustre

ในหลายกรณี คุณสร้างระบบไฟล์ FSx for Luster และ เชื่อมโยงไปยังที่ฝากข้อมูล S3 และคำนำหน้า. เมื่อเชื่อมโยงกับบัคเก็ต S3 เป็นซอร์ส ไฟล์จะถูกโหลดแบบ Lazy Loading ลงในระบบไฟล์เมื่อสคริปต์การฝึกอบรมของคุณอ่าน ซึ่งหมายความว่าหลังจากช่วงแรกของการรันการฝึกครั้งแรกของคุณ ชุดข้อมูลทั้งหมดจะถูกคัดลอกจาก Amazon S3 ไปยังพื้นที่จัดเก็บ FSx for Luster (สมมติว่ายุคหนึ่งถูกกำหนดให้เป็นการกวาดแบบเต็มครั้งเดียวโดยนึกถึงตัวอย่างการฝึกอบรม และ FSx ที่จัดสรรไว้สำหรับ การจัดเก็บความมันวาวมีขนาดใหญ่พอ) ซึ่งช่วยให้สามารถเข้าถึงไฟล์ที่มีเวลาแฝงต่ำสำหรับยุคต่อมาและงานการฝึกอบรมด้วยชุดข้อมูลเดียวกัน

คุณยังสามารถ โหลดไฟล์ไว้ล่วงหน้าในระบบไฟล์ ก่อนเริ่มงานฝึกอบรมซึ่งช่วยลดการสตาร์ทเย็นเนื่องจากการโหลดที่ขี้เกียจ นอกจากนี้ยังสามารถเรียกใช้งานการฝึกอบรมหลายงานพร้อมกันซึ่งให้บริการโดยระบบไฟล์ FSx for Luster เดียวกัน ในการเข้าถึง FSx for Lustre งานฝึกอบรมของคุณต้องเชื่อมต่อกับ VPC (ดู การตั้งค่า VPCConfig) ซึ่งต้องมีการตั้งค่า DevOps และการมีส่วนร่วม เพื่อหลีกเลี่ยงค่าใช้จ่ายในการถ่ายโอนข้อมูล ระบบไฟล์จะใช้ Availability Zone เดียว และคุณต้องระบุ Availability Zone ID นี้เมื่อรันงานการฝึก เนื่องจากคุณใช้ Amazon S3 เป็นที่จัดเก็บข้อมูลระยะยาว เราจึงแนะนำให้ปรับใช้ FSx for Luster ที่มีพื้นที่จัดเก็บ Scratch 2 ซึ่งเป็นทางเลือกพื้นที่จัดเก็บระยะสั้นที่คุ้มค่าสำหรับปริมาณงานสูง โดยให้พื้นฐาน 200 MB/s และความเร็วสูงสุด 1300 MB/s ต่อ TB ของพื้นที่จัดเก็บข้อมูลที่จัดเตรียมไว้

ด้วยระบบไฟล์ FSx for Luster ของคุณที่ทำงานอย่างต่อเนื่อง คุณสามารถเริ่มงานการฝึกอบรมใหม่โดยไม่ต้องรอให้สร้างระบบไฟล์ และไม่ต้องกังวลกับการเริ่มเย็นในช่วงยุคแรก (เพราะไฟล์ยังอาจถูกแคชไว้ ระบบไฟล์ FSx for Luster) ข้อเสียในสถานการณ์นี้คือค่าใช้จ่ายเพิ่มเติมที่เกี่ยวข้องกับการรักษาระบบไฟล์ให้ทำงาน อีกทางหนึ่ง คุณสามารถสร้างและลบระบบไฟล์ก่อนและหลังงานการฝึกอบรมแต่ละงาน (อาจเป็นด้วยระบบอัตโนมัติของสคริปต์เพื่อช่วย) แต่ต้องใช้เวลาในการเริ่มต้นระบบไฟล์ FSx for Luster ซึ่งเป็นสัดส่วนกับจำนวนไฟล์ที่เก็บไว้ (สำหรับ ตัวอย่างเช่น ใช้เวลาประมาณหนึ่งชั่วโมงในการสร้างดัชนีวัตถุประมาณ 2 ล้านรายการจาก Amazon S3)

อเมซอน EFS

เราแนะนำให้ใช้ Amazon EFS หากข้อมูลการฝึกของคุณมีอยู่แล้วใน Amazon EFS เนื่องจากกรณีการใช้งานนอกเหนือจากการฝึกอบรม ML หากต้องการใช้ Amazon EFS เป็นแหล่งข้อมูล ข้อมูลต้องมีอยู่แล้วใน Amazon EFS ก่อนการฝึกอบรม SageMaker ติดตั้งระบบไฟล์ Amazon EFS ที่ระบุกับอินสแตนซ์การฝึกอบรม จากนั้นจึงเริ่มสคริปต์การฝึกอบรมของคุณ เมื่อกำหนดค่าระบบไฟล์ Amazon EFS คุณต้องเลือกระหว่างโหมดประสิทธิภาพทั่วไปตามค่าเริ่มต้น ซึ่งได้รับการปรับให้เหมาะสมสำหรับเวลาแฝง (เหมาะสำหรับไฟล์ขนาดเล็ก) และโหมดประสิทธิภาพ I/O สูงสุด ซึ่งสามารถปรับขนาดเป็นปริมาณงานโดยรวมที่สูงขึ้นและ ต่อวินาที (ดีกว่าสำหรับงานฝึกอบรมที่มีผู้ปฏิบัติงาน I/O จำนวนมาก) ดูข้อมูลเพิ่มเติมได้ที่ การใช้โหมดประสิทธิภาพที่เหมาะสม.

นอกจากนี้ คุณสามารถเลือกระหว่างตัวเลือกปริมาณการประมวลผลที่วัดได้สองตัวเลือก: ปริมาณการประมวลผลที่ขยาย และปริมาณงานที่จัดเตรียม ปริมาณงานที่เพิ่มขึ้นสำหรับระบบไฟล์ขนาด 1 TB ให้ค่าพื้นฐานที่ 150 MB/s ในขณะที่สามารถขยายได้ถึง 300 MB/s ในช่วงเวลา 12 ชั่วโมงต่อวัน หากคุณต้องการปริมาณงานพื้นฐานที่สูงขึ้น หรือพบว่าเครดิตต่อเนื่องหมดหลายครั้งเกินไป คุณสามารถเพิ่มขนาดของระบบไฟล์หรือเปลี่ยนไปใช้ปริมาณการประมวลผลที่จัดเตรียมไว้ ในอัตราการส่งข้อมูลที่เตรียมใช้งาน คุณจะต้องชำระเงินสำหรับปริมาณข้อมูลพื้นฐานที่ต้องการสูงสุด 3072 MB/s ในการอ่าน

งานฝึกอบรมของคุณต้องเชื่อมต่อกับ VPC (ดู การตั้งค่า VPCConfig) เพื่อเข้าถึง Amazon EFS

การเลือกแหล่งข้อมูลที่ดีที่สุด

แหล่งข้อมูลที่ดีที่สุดสำหรับงานฝึกอบรมของคุณขึ้นอยู่กับลักษณะเฉพาะของปริมาณงาน เช่น ขนาดชุดข้อมูล รูปแบบไฟล์ ขนาดไฟล์เฉลี่ย ระยะเวลาการฝึก รูปแบบการอ่านตัวโหลดข้อมูลตามลำดับหรือแบบสุ่ม และโมเดลของคุณสามารถใช้ข้อมูลการฝึกอบรมได้เร็วเพียงใด

ผังงานต่อไปนี้ให้แนวทางบางประการเพื่อช่วยคุณในการเริ่มต้น:

เมื่อใดควรใช้ Amazon EFS

หากชุดข้อมูลของคุณจัดเก็บอยู่บน Amazon EFS เป็นหลัก คุณอาจมีแอปพลิเคชันการประมวลผลล่วงหน้าหรือคำอธิบายประกอบที่ใช้ Amazon EFS สำหรับการจัดเก็บ คุณสามารถเรียกใช้งานการฝึกอบรมที่กำหนดค่าด้วยช่องทางข้อมูลที่ชี้ไปที่ระบบไฟล์ Amazon EFS ได้อย่างง่ายดาย (สำหรับข้อมูลเพิ่มเติม โปรดดูที่ เร่งความเร็วการฝึกอบรมบน Amazon SageMaker โดยใช้ระบบไฟล์ Amazon FSx for Luster และ Amazon EFS). หากประสิทธิภาพไม่ดีเท่าที่คุณคาดไว้ ให้ตรวจสอบตัวเลือกการเพิ่มประสิทธิภาพของคุณด้วย คู่มือประสิทธิภาพ Amazon EFSหรือพิจารณาโหมดอินพุตอื่นๆ

ใช้โหมดไฟล์สำหรับชุดข้อมูลขนาดเล็ก

หากชุดข้อมูลจัดเก็บใน Amazon S3 และปริมาณโดยรวมค่อนข้างน้อย (เช่น น้อยกว่า 50-100 GB) ให้ลองใช้โหมดไฟล์. ค่าใช้จ่ายในการดาวน์โหลดชุดข้อมูลขนาด 50 GB อาจแตกต่างกันไปตามจำนวนไฟล์ทั้งหมด (เช่น ประมาณ 5 นาทีหากแบ่งเป็นกลุ่มย่อย 100 MB) ค่าใช้จ่ายในการเริ่มต้นนี้เป็นที่ยอมรับหรือไม่นั้นขึ้นอยู่กับระยะเวลาโดยรวมของงานการฝึกอบรมของคุณ เนื่องจากขั้นตอนการฝึกอบรมที่ยาวขึ้นหมายถึงขั้นตอนการดาวน์โหลดที่เล็กลงตามสัดส่วน

การจัดลำดับไฟล์ขนาดเล็กจำนวนมากเข้าด้วยกัน

หากขนาดชุดข้อมูลของคุณเล็ก (น้อยกว่า 50-100 GB) แต่ประกอบด้วยไฟล์ขนาดเล็กจำนวนมาก (น้อยกว่า 50 MB) โอเวอร์เฮดการดาวน์โหลดในโหมดไฟล์จะเพิ่มขึ้น เนื่องจากต้องดาวน์โหลดไฟล์แต่ละไฟล์จาก Amazon S3 ไปที่ ปริมาณอินสแตนซ์การฝึกอบรม เพื่อลดโอเวอร์เฮดนี้ และเพิ่มความเร็วในการส่งผ่านข้อมูลโดยทั่วไป ให้พิจารณาการจัดกลุ่มไฟล์ขนาดเล็กลงในคอนเทนเนอร์ไฟล์ที่มีขนาดใหญ่กว่า (เช่น 150 MB ต่อไฟล์) โดยใช้รูปแบบไฟล์ เช่น ทีเอฟเรคคอร์ด สำหรับ TensorFlow ชุดข้อมูลเว็บ สำหรับ PyTorch หรือ บันทึกIO สำหรับ MXNet รูปแบบเหล่านี้ต้องการให้ตัวโหลดข้อมูลของคุณทำซ้ำผ่านตัวอย่างตามลำดับ คุณยังสามารถสับเปลี่ยนข้อมูลของคุณโดยสุ่มจัดลำดับรายการไฟล์ TFRecord ใหม่หลังจากแต่ละยุค และโดยการสุ่มตัวอย่างข้อมูลจากบัฟเฟอร์สับเปลี่ยนในเครื่อง (ดูสิ่งต่อไปนี้ ตัวอย่าง TensorFlow).

เมื่อใดควรใช้โหมด FastFile

สำหรับชุดข้อมูลขนาดใหญ่ที่มีไฟล์ขนาดใหญ่กว่า (มากกว่า 50 MB) ตัวเลือกแรกคือลองใช้โหมด FastFile ซึ่งใช้งานได้ง่ายกว่า FSx for Luster เนื่องจากไม่ต้องสร้างระบบไฟล์หรือเชื่อมต่อกับ VPC โหมด FastFile เหมาะอย่างยิ่งสำหรับคอนเทนเนอร์ไฟล์ขนาดใหญ่ (มากกว่า 150 MB) และอาจทำงานได้ดีกับไฟล์ที่มีขนาดมากกว่า 50 MB เนื่องจากโหมด FastFile มีอินเทอร์เฟซ POSIX จึงสนับสนุนการอ่านแบบสุ่ม (การอ่านช่วงไบต์ที่ไม่ต่อเนื่องกัน) อย่างไรก็ตาม นี่ไม่ใช่กรณีการใช้งานในอุดมคติ และปริมาณงานของคุณอาจต่ำกว่าการอ่านตามลำดับ อย่างไรก็ตาม หากคุณมีโมเดล ML ที่ค่อนข้างใหญ่และใช้การประมวลผลสูง โหมด FastFile อาจยังคงสามารถอิ่มตัวแบนด์วิธที่มีประสิทธิภาพของไปป์ไลน์การฝึก และไม่ส่งผลให้เกิดคอขวด I/O คุณจะต้องทดลองและดู โชคดีที่การเปลี่ยนจากโหมดไฟล์เป็น FastFile (และย้อนกลับ) นั้นง่ายพอๆ กับการเพิ่ม (หรือลบ) the input_mode='FastFile' พารามิเตอร์ขณะกำหนดช่องสัญญาณอินพุตของคุณโดยใช้ SageMaker Python SDK:

sagemaker.inputs.TrainingInput(S3_INPUT_FOLDER, input_mode='FastFile')

ไม่ต้องเปลี่ยนรหัสหรือการกำหนดค่าอื่น

เมื่อใดควรใช้ FSx สำหรับความมันวาว

หากชุดข้อมูลของคุณใหญ่เกินไปสำหรับโหมดไฟล์ หรือมีไฟล์ขนาดเล็กจำนวนมาก (ซึ่งคุณไม่สามารถทำให้เป็นอันดับได้อย่างง่ายดาย) หรือคุณมีรูปแบบการเข้าถึงการอ่านแบบสุ่ม FSx for Luster เป็นตัวเลือกที่ดีในการพิจารณา ระบบไฟล์จะปรับขนาดเป็นทรูพุตหลายร้อย GB/s และ IOPS หลายล้านไฟล์ ซึ่งเหมาะอย่างยิ่งเมื่อคุณมีไฟล์ขนาดเล็กจำนวนมาก อย่างไรก็ตาม ดังที่ได้กล่าวไปแล้วก่อนหน้านี้ โปรดคำนึงถึงปัญหาการเริ่มระบบเย็นเนื่องจากการโหลดแบบ Lazy Loading และค่าใช้จ่ายในการตั้งค่าและการเริ่มต้นระบบไฟล์ FSx for Luster

การพิจารณาต้นทุน

สำหรับงานฝึกอบรม ML ส่วนใหญ่ โดยเฉพาะอย่างยิ่งงานที่ใช้ GPU หรือชิป ML ที่สร้างขึ้นตามวัตถุประสงค์ ค่าใช้จ่ายในการฝึกอบรมส่วนใหญ่เป็นวินาทีที่เรียกเก็บเงินได้ของอินสแตนซ์การฝึกอบรม ML พื้นที่เก็บข้อมูล GB ต่อเดือน คำขอ API และปริมาณงานที่จัดเตรียมไว้เป็นค่าใช้จ่ายเพิ่มเติมที่เกี่ยวข้องโดยตรงกับแหล่งข้อมูลที่คุณใช้

พื้นที่เก็บข้อมูล GB ต่อเดือน

พื้นที่เก็บข้อมูล GB ต่อเดือนอาจมีนัยสำคัญสำหรับชุดข้อมูลขนาดใหญ่ เช่น วิดีโอ ข้อมูลเซ็นเซอร์ LiDAR และบันทึกการเสนอราคาแบบเรียลไทม์ของ AdTech ตัวอย่างเช่น การจัดเก็บ 1 TB ใน Amazon S3 ระดับการเข้าถึงบ่อยครั้งแบบจัดระดับแบบอัจฉริยะ ค่าใช้จ่าย $ 23 ต่อเดือน การเพิ่มระบบไฟล์ FSx for Luster ที่ด้านบนของ Amazon S3 ส่งผลให้มีค่าใช้จ่ายเพิ่มเติม ตัวอย่างเช่น การสร้างระบบไฟล์ 1.2 TB ของประเภท Scratch 2 ที่สนับสนุนโดย SSD โดยที่การบีบอัดข้อมูลถูกปิดใช้งานจะมีค่าใช้จ่ายเพิ่มเติม $168 ต่อเดือน ($140/TB/เดือน)

ด้วย Amazon S3 และ Amazon EFS คุณจะจ่ายเฉพาะส่วนที่คุณใช้ ซึ่งหมายความว่าคุณจะถูกเรียกเก็บเงินตามขนาดชุดข้อมูลจริง ด้วย FSx for Lustre คุณจะถูกเรียกเก็บเงินตามขนาดระบบไฟล์ที่จัดเตรียมไว้ (อย่างน้อย 1.2 TB) เมื่อเรียกใช้อินสแตนซ์ ML ด้วยวอลุ่ม EBS นั้น Amazon EBS จะถูกเรียกเก็บเงินโดยไม่ขึ้นกับอินสแตนซ์ ML โดยปกติแล้วจะมีต้นทุนที่ต่ำกว่ามากเมื่อเทียบกับค่าใช้จ่ายในการเรียกใช้อินสแตนซ์ ตัวอย่างเช่น การเรียกใช้อินสแตนซ์ ml.p3.2xlarge ที่มีไดรฟ์ข้อมูล EBS 100 GB เป็นเวลา 1 ชั่วโมงจะมีค่าใช้จ่าย 3.825 USD สำหรับอินสแตนซ์ และ 0.02 USD สำหรับไดรฟ์ข้อมูล EBS

คำขอ API และต้นทุนปริมาณงานที่จัดเตรียมไว้

ในขณะที่งานฝึกอบรมของคุณกำลังดำเนินการผ่านชุดข้อมูล จะแสดงรายการและดึงไฟล์โดยส่งคำขอ Amazon S3 API ตัวอย่างเช่น คำขอ GET แต่ละรายการมีราคา 0.4 ดอลลาร์ (ด้วยคลาสการจัดระดับแบบอัจฉริยะ) คุณควรคาดว่าจะไม่มีค่าใช้จ่ายในการถ่ายโอนข้อมูลสำหรับแบนด์วิดท์เข้าและออกจาก Amazon S3 เนื่องจากการฝึกอบรมเกิดขึ้นใน Availability Zone เดียว

เมื่อใช้ FSx for Luster ที่เชื่อมโยงกับบัคเก็ต S3 คุณจะต้องเสียค่าคำขอ Amazon S3 API สำหรับการอ่านข้อมูลที่ยังไม่ได้แคชในระบบไฟล์ เนื่องจาก FSx For Luster จะพร็อกซี่คำขอไปยัง Amazon S3 (และแคชผลลัพธ์ ). ไม่มีค่าใช้จ่ายสำหรับคำขอโดยตรงสำหรับ FSx for Luster เมื่อคุณใช้ระบบไฟล์ FSx for Luster ให้หลีกเลี่ยงค่าใช้จ่ายในการถ่ายโอนข้อมูลข้าม Availability Zone โดยการเรียกใช้งานการฝึกอบรมที่เชื่อมต่อกับ Availability Zone เดียวกันกับที่คุณจัดเตรียมระบบไฟล์ไว้ Amazon EFS ที่มีปริมาณงานที่จัดเตรียมไว้จะเพิ่มค่าใช้จ่ายเพิ่มเติมให้กับผู้ประเมิน GB ต่อเดือน

กรณีศึกษาประสิทธิภาพ

เพื่อแสดงข้อควรพิจารณาด้านประสิทธิภาพการฝึกอบรมที่กล่าวถึงก่อนหน้านี้ เราได้ดำเนินการชุดของการวัดประสิทธิภาพสำหรับกรณีการใช้งานจริงในโดเมนวิชันซิสเต็ม เกณฑ์เปรียบเทียบ (และข้อสรุป) จากส่วนนี้อาจใช้ไม่ได้กับทุกสถานการณ์ และได้รับผลกระทบจากปัจจัยที่กำหนดไว้ล่วงหน้าต่างๆ ที่เราใช้ เช่น DNN เราทำการทดสอบ 12 ชุดค่าผสมต่อไปนี้:

โหมดอินพุต – FSx for Lustre, โหมดไฟล์, โหมด FastFile
ขนาดชุดข้อมูล – ชุดข้อมูลที่เล็กกว่า (1 GB), ชุดข้อมูลที่ใหญ่กว่า (54 GB)
ขนาดไฟล์ – ไฟล์ขนาดเล็ก (JPGs ประมาณ 39 KB) ไฟล์ขนาดใหญ่ (TFRecord ประมาณ 110 MB)

สำหรับกรณีศึกษานี้ เราเลือกโหมดอินพุตที่ใช้กันอย่างแพร่หลายมากที่สุด ดังนั้นจึงละเว้นโหมด Amazon EFS และไปป์

เกณฑ์มาตรฐานกรณีศึกษาได้รับการออกแบบให้เป็นงานการฝึกอบรม SageMaker TensorFlow แบบ end-to-end บนอินสแตนซ์ GPU เดี่ยว ml.p3.2xlarge เราเลือก ResNet-50 ที่มีชื่อเสียงเป็นโมเดลแกนหลักสำหรับงานจำแนกประเภท และ Caltech-256 เป็นชุดข้อมูลการฝึกอบรมที่เล็กกว่า (ซึ่งเราทำซ้ำ 50 ครั้งเพื่อสร้างเวอร์ชันชุดข้อมูลที่ใหญ่ขึ้น) เราทำการฝึกอบรมสำหรับยุคหนึ่ง ซึ่งกำหนดเป็นการฝึกแบบกวาดครั้งเดียวแบบเต็มรูปแบบ

กราฟต่อไปนี้แสดงเวลาที่เรียกเก็บเงินได้ทั้งหมดของงานการฝึกอบรม SageMaker สำหรับแต่ละสถานการณ์เปรียบเทียบ เวลางานทั้งหมดประกอบด้วยการดาวน์โหลด การฝึกอบรม และขั้นตอนอื่นๆ (เช่น การเริ่มต้นคอนเทนเนอร์และการอัปโหลดสิ่งประดิษฐ์ของโมเดลที่ได้รับการฝึกอบรมไปยัง Amazon S3) เวลาที่เรียกเก็บเงินได้สั้นลงแปลเป็นงานฝึกอบรมที่เร็วและถูกกว่า

มาคุยกันก่อน สถานการณ์ A และสถานการณ์ Cซึ่งแสดงให้เห็นความแตกต่างของประสิทธิภาพระหว่างโหมดอินพุตได้อย่างสะดวกเมื่อชุดข้อมูลประกอบด้วยไฟล์ขนาดเล็กจำนวนมาก

สถานการณ์ A (ไฟล์เล็กลง ชุดข้อมูลเล็กลง) เผยงานอบรมกับระบบไฟล์ FSx for Luster มีเวลาคิดเงินน้อยที่สุด มีขั้นตอนการดาวน์โหลดที่สั้นที่สุด และขั้นตอนการฝึกอบรมนั้นเร็วเท่ากับโหมดไฟล์ แต่เร็วกว่า FastFile FSx for Luster เป็นผู้ชนะในการทดสอบ single epoch ที่กล่าวว่า ให้พิจารณาปริมาณงานที่คล้ายกันแต่มีหลายยุค—ค่าใช้จ่ายสัมพัทธ์ของโหมดไฟล์เนื่องจากขั้นตอนการดาวน์โหลดลดลงเมื่อมีการเพิ่มยุคมากขึ้น ในกรณีนี้ เราชอบโหมดไฟล์เพื่อความสะดวกในการใช้งาน นอกจากนี้ คุณอาจพบว่าการใช้โหมดไฟล์และชำระเงินเพิ่มอีก 100 วินาทีที่เรียกเก็บเงินได้เป็นทางเลือกที่ดีกว่าการจ่ายและจัดเตรียมระบบไฟล์ FSx for Luster

สถานการณ์ C (ไฟล์ที่เล็กกว่า ชุดข้อมูลที่ใหญ่กว่า) แสดง FSx for Luster เป็นโหมดที่เร็วที่สุด โดยมีเวลาเรียกเก็บเงินทั้งหมดเพียง 5,000 วินาที นอกจากนี้ยังมีขั้นตอนการดาวน์โหลดที่สั้นที่สุด เนื่องจากการติดตั้งระบบไฟล์ FSx for Luster ไม่ได้ขึ้นอยู่กับจำนวนไฟล์ในระบบไฟล์ (1.5 ล้านไฟล์ในกรณีนี้) ค่าใช้จ่ายในการดาวน์โหลดของ FastFile ก็มีน้อยเช่นกัน มันดึงเฉพาะข้อมูลเมตาของไฟล์ที่อยู่ภายใต้คำนำหน้าบัคเก็ต S3 ที่ระบุ ในขณะที่เนื้อหาของไฟล์จะถูกอ่านในระหว่างขั้นตอนการฝึกอบรม โหมดไฟล์เป็นโหมดที่ช้าที่สุด โดยใช้เวลา 10,000 วินาทีในการดาวน์โหลดชุดข้อมูลทั้งหมดล่วงหน้าก่อนเริ่มการฝึก เมื่อเราดูขั้นตอนการฝึก FSx for Luster และโหมด File จะแสดงให้เห็นประสิทธิภาพที่ยอดเยี่ยมเช่นเดียวกัน สำหรับโหมด FastFile เมื่อสตรีมไฟล์ขนาดเล็กลงโดยตรงจาก Amazon S3 ค่าใช้จ่ายในการส่งคำขอ GET ใหม่สำหรับแต่ละไฟล์จะมีนัยสำคัญเมื่อเทียบกับระยะเวลาทั้งหมดของการถ่ายโอนไฟล์ (แม้จะใช้ตัวโหลดข้อมูลแบบขนานสูงพร้อมบัฟเฟอร์การดึงข้อมูลล่วงหน้า) ซึ่งส่งผลให้ปริมาณงานโดยรวมลดลงสำหรับโหมด FastFile ซึ่งสร้างคอขวด I/O สำหรับงานการฝึกอบรม FSx for Luster เป็นผู้ชนะที่ชัดเจนในสถานการณ์นี้

สถานการณ์ B และ D แสดงความแตกต่างของประสิทธิภาพในโหมดอินพุต เมื่อชุดข้อมูลประกอบด้วยไฟล์ขนาดใหญ่น้อยกว่า การอ่านตามลำดับโดยใช้ไฟล์ที่ใหญ่ขึ้นมักส่งผลให้ประสิทธิภาพ I/O ดีขึ้น เนื่องจากช่วยให้บัฟเฟอร์มีประสิทธิภาพและลดจำนวนการดำเนินการ I/O

สถานการณ์ B (ไฟล์ขนาดใหญ่กว่า ชุดข้อมูลที่เล็กลง) แสดงเวลาของขั้นตอนการฝึกที่คล้ายคลึงกันสำหรับทุกโหมด (เป็นพยานว่าการฝึกไม่ได้ผูกกับ I/O) ในสถานการณ์สมมตินี้ เราชอบโหมด FastFile มากกว่าโหมดไฟล์เนื่องจากระยะการดาวน์โหลดสั้นกว่า และชอบโหมด FastFile มากกว่า FSx for Luster เนื่องจากความง่ายในการใช้งานของโหมดก่อนหน้า

สถานการณ์ D (ไฟล์ขนาดใหญ่กว่า ชุดข้อมูลที่ใหญ่กว่า) แสดงเวลาที่เรียกเก็บเงินได้ทั้งหมดที่ใกล้เคียงกันสำหรับทั้งสามโหมด ขั้นตอนการดาวน์โหลดของโหมดไฟล์นั้นยาวกว่า FSx for Luster และ FastFile โหมดไฟล์จะดาวน์โหลดชุดข้อมูลทั้งหมด (54 GB) จาก Amazon S3 ไปยังอินสแตนซ์การฝึกอบรมก่อนเริ่มขั้นตอนการฝึกอบรม ทั้งสามโหมดใช้เวลาเท่ากันในช่วงการฝึก เพราะทุกโหมดสามารถดึงข้อมูลได้เร็วเพียงพอและผูกกับ GPU หากเราใช้อินสแตนซ์ ML กับทรัพยากร CPU หรือ GPU เพิ่มเติม เช่น ml.p4d.24xlarge ปริมาณการรับส่งข้อมูล I/O ข้อมูลที่จำเป็นเพื่อทำให้ทรัพยากรในการประมวลผลอิ่มตัวจะเพิ่มขึ้น ในกรณีเหล่านี้ เราสามารถคาดหวังให้ FastFile และ FSx for Luster ปรับขนาดปริมาณงานได้สำเร็จ (อย่างไรก็ตาม ปริมาณงาน FSx สำหรับ Luster ขึ้นอยู่กับขนาดระบบไฟล์ที่จัดเตรียมไว้) ความสามารถของโหมดไฟล์ในการปรับขนาดปริมาณงานขึ้นอยู่กับปริมาณงานของไดรฟ์ข้อมูลที่แนบกับอินสแตนซ์ ตัวอย่างเช่น อินสแตนซ์ที่ได้รับการสนับสนุนจาก Amazon EBS (เช่น ml.p3.2xlarge, ml.p3.8xlarge และ ml.p3.16xlarge) จะถูกจำกัดปริมาณงานไว้ที่ 250MB/s ในขณะที่อินสแตนซ์ที่ได้รับการสนับสนุนจาก NVMe ในเครื่อง (เช่น ml. g5.* หรือ ml.p4d.24xlarge) สามารถรองรับปริมาณงานที่มีขนาดใหญ่กว่ามาก

โดยสรุป เราเชื่อว่า FastFile เป็นผู้ชนะสำหรับสถานการณ์นี้ เนื่องจากเร็วกว่าโหมดไฟล์ และเร็วเท่ากับ FSx สำหรับ Lustre แต่ยังใช้งานง่ายกว่า เสียค่าใช้จ่ายน้อยลง และสามารถขยายปริมาณงานได้อย่างง่ายดายตามต้องการ

นอกจากนี้ หากเรามีชุดข้อมูลขนาดใหญ่กว่ามาก (ขนาดหลาย TB) โหมดไฟล์จะใช้เวลาหลายชั่วโมงในการดาวน์โหลดชุดข้อมูลก่อนที่การฝึกจะเริ่มขึ้น ในขณะที่ FastFile สามารถเริ่มการฝึกได้เร็วกว่าอย่างเห็นได้ชัด

นำเข้าข้อมูลของคุณเอง

แหล่งข้อมูลดั้งเดิมของ SageMaker เหมาะกับสถานการณ์การฝึกอบรม ML ส่วนใหญ่แต่ไม่ทั้งหมด สถานการณ์ที่คุณอาจต้องค้นหาตัวเลือกการนำเข้าข้อมูลอื่นๆ อาจรวมถึงการอ่านข้อมูลโดยตรงจากผลิตภัณฑ์พื้นที่จัดเก็บของบุคคลที่สาม (สมมติว่าไม่สามารถส่งออกไปยัง Amazon S3 ที่ง่ายและทันเวลาได้) หรือมีความต้องการที่แข็งแกร่งสำหรับการฝึกอบรมเดียวกัน สคริปต์ให้ทำงานไม่เปลี่ยนแปลงทั้งบน SageMaker และ อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (Amazon EC2) หรือ บริการ Amazon Elastic Kubernetes (อเมซอน อีเคเอส). คุณสามารถจัดการกับกรณีเหล่านี้ได้โดยใช้กลไกการนำเข้าข้อมูลของคุณในสคริปต์การฝึกอบรม กลไกนี้มีหน้าที่ในการอ่านชุดข้อมูลจากแหล่งข้อมูลภายนอกในอินสแตนซ์การฝึกอบรม ตัวอย่างเช่น TFRecordDataset ของ TensorFlow's tf.data ห้องสมุดสามารถอ่านได้โดยตรงจากที่จัดเก็บ Amazon S3

หากกลไกการนำเข้าข้อมูลของคุณต้องเรียกใช้บริการของ AWS เช่น บริการฐานข้อมูลเชิงสัมพันธ์ของ Amazon (Amazon RDS) ตรวจสอบให้แน่ใจว่า AWS Identity และการจัดการการเข้าถึง บทบาท (IAM) ในงานฝึกอบรมของคุณรวมถึงนโยบาย IAM ที่เกี่ยวข้อง หากแหล่งข้อมูลอยู่ใน คลาวด์ส่วนตัวเสมือนของ Amazon (Amazon VPC) คุณต้องเรียกใช้งานการฝึกอบรมที่เชื่อมต่อกับ VPC เดียวกัน

เมื่อคุณจัดการการนำเข้าชุดข้อมูลด้วยตนเอง การติดตามสายของ SageMaker จะไม่สามารถบันทึกชุดข้อมูลที่ใช้ในระหว่างการฝึกอบรมได้โดยอัตโนมัติ ดังนั้น ให้พิจารณากลไกทางเลือก เช่น แท็กงานการฝึกอบรมหรือไฮเปอร์พารามิเตอร์ เพื่อบันทึกข้อมูลเมตาที่เกี่ยวข้องของคุณ

สรุป

การเลือกแหล่งข้อมูลการฝึก SageMaker ที่เหมาะสมอาจส่งผลกระทบอย่างลึกซึ้งต่อความเร็ว การใช้งานง่าย และค่าใช้จ่ายในการฝึกอบรมโมเดล ML ใช้แผนผังลำดับงานที่ให้มาเพื่อเริ่มต้นอย่างรวดเร็ว สังเกตผลลัพธ์ และทดสอบด้วยการกำหนดค่าเพิ่มเติมตามต้องการ คำนึงถึงข้อดี ข้อเสีย และข้อจำกัดของแหล่งข้อมูลแต่ละแหล่ง และความเหมาะสมกับความต้องการส่วนบุคคลของงานฝึกอบรมของคุณเพียงใด ติดต่อผู้ติดต่อ AWS สำหรับข้อมูลเพิ่มเติมและความช่วยเหลือ

เกี่ยวกับผู้เขียน

กิลี นาชุม เป็นสถาปนิกอาวุโสด้านโซลูชัน AI/ML Specialist Solutions ซึ่งทำงานเป็นส่วนหนึ่งของทีม EMEA Amazon Machine Learning Gili หลงใหลเกี่ยวกับความท้าทายในการฝึกโมเดลการเรียนรู้เชิงลึก และการเรียนรู้ของเครื่องกำลังเปลี่ยนแปลงโลกอย่างที่เรารู้ๆ กันอย่างไร ในเวลาว่าง Gili สนุกกับการเล่นปิงปอง

ดร.อเล็กซานเดอร์ อาร์ชานอฟ เป็นสถาปนิก AI/ML Specialist Solutions Architect ในเมืองแฟรงก์เฟิร์ต ประเทศเยอรมนี เขาช่วยลูกค้า AWS ออกแบบและปรับใช้โซลูชัน ML ของตนทั่วทั้งภูมิภาค EMEA ก่อนร่วมงานกับ AWS อเล็กซานเดอร์กำลังค้นคว้าต้นกำเนิดของธาตุหนักในจักรวาลของเรา และเริ่มหลงใหลเกี่ยวกับ ML หลังจากใช้ในการคำนวณทางวิทยาศาสตร์ขนาดใหญ่ของเขา

ประทับเวลา: กุมภาพันธ์ 23, 2022

ประทับเวลา: Mar 29, 2023

เผยแพร่ซ้ำโดยเพลโต

AWS Localization ใช้ Amazon Translate เพื่อปรับขนาดการแปลภาษา

VMware สร้างไปป์ไลน์ MLOps ตั้งแต่เริ่มต้นโดยใช้ GitLab, Amazon MWAA และ Amazon SageMaker ได้อย่างไร

สร้างเวิร์กโฟลว์การแปลเอกสารหลายภาษาด้วยการปรับแต่งเฉพาะโดเมนและภาษาเฉพาะ

Chronomics ตรวจจับผลการทดสอบ COVID-19 ด้วย Amazon Rekognition Custom Labels

การคาดการณ์อนุกรมเวลาที่มีประสิทธิภาพด้วย MLOps บน Amazon SageMaker | อเมซอนเว็บเซอร์วิส

ไปป์ไลน์การเพิ่มรูปภาพสำหรับ Amazon Lookout for Vision

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้