รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

บรรลุอัตราการส่งข้อมูลการอนุมาน ML ที่สูงขึ้นสี่เท่าด้วยต้นทุนต่อการอนุมานที่ต่ำลงสามเท่าด้วยอินสแตนซ์ Amazon EC2 G5 สำหรับรุ่น NLP และ CV PyTorch

อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (อเมซอน อีซี2) อินสแตนซ์ G5 เป็นอินสแตนซ์แรกและอินสแตนซ์เดียวในคลาวด์ที่มีฟีเจอร์ NVIDIA A10G Tensor Core GPU ซึ่งคุณสามารถใช้สำหรับกรณีการใช้งานที่เน้นกราฟิกและการเรียนรู้ของเครื่อง (ML) ได้หลากหลาย ด้วยอินสแตนซ์ G5 ลูกค้า ML จะได้รับประสิทธิภาพสูงและโครงสร้างพื้นฐานที่คุ้มค่าในการฝึกอบรมและปรับใช้โมเดลที่ใหญ่และซับซ้อนยิ่งขึ้นสำหรับการประมวลผลภาษาธรรมชาติ (NLP) คอมพิวเตอร์วิทัศน์ (CV) และกรณีการใช้งานเครื่องมือแนะนำ

จุดประสงค์ของโพสต์นี้คือเพื่อแสดงประโยชน์ด้านประสิทธิภาพของอินสแตนซ์ G5 สำหรับปริมาณงานการอนุมาน ML ขนาดใหญ่ เราทำสิ่งนี้โดยเปรียบเทียบประสิทธิภาพด้านราคา (วัดจากการอนุมาน $ ต่อการอนุมาน) สำหรับโมเดล NLP และ CV กับอินสแตนซ์ G4dn เราเริ่มต้นด้วยการอธิบายแนวทางการเปรียบเทียบของเรา จากนั้นจึงนำเสนอกราฟปริมาณงานเทียบกับเวลาแฝงในขนาดแบทช์และความแม่นยำของประเภทข้อมูล เมื่อเปรียบเทียบกับอินสแตนซ์ G4dn เราพบว่าอินสแตนซ์ G5 ให้การอนุมานราคาต่อล้านที่ต่ำลงอย่างต่อเนื่องสำหรับทั้งโหมดความแม่นยำเต็มรูปแบบและความแม่นยำแบบผสมสำหรับรุ่น NLP และ CV ในขณะที่บรรลุปริมาณงานที่สูงขึ้นและเวลาแฝงที่ต่ำกว่า

แนวทางการเปรียบเทียบ

ในการพัฒนาการศึกษาประสิทธิภาพราคาระหว่าง G5 และ G4dn เราจำเป็นต้องวัดปริมาณงาน เวลาแฝง และราคาต่อการอนุมานหนึ่งล้านครั้งในฐานะฟังก์ชันของขนาดแบทช์ นอกจากนี้เรายังศึกษาผลกระทบของความแม่นยำเต็มรูปแบบกับความแม่นยำแบบผสม ทั้งกราฟแบบจำลองและอินพุตถูกโหลดลงใน CUDA ก่อนการอนุมาน

ดังที่แสดงในไดอะแกรมสถาปัตยกรรมต่อไปนี้ ขั้นแรกเราจะสร้างอิมเมจคอนเทนเนอร์พื้นฐานตามลำดับด้วย CUDA สำหรับอินสแตนซ์ EC2 พื้นฐาน (G4dn, G5) ในการสร้างอิมเมจคอนเทนเนอร์พื้นฐาน เราเริ่มต้นด้วย คอนเทนเนอร์การเรียนรู้เชิงลึกของ AWSซึ่งใช้อิมเมจ Docker ที่บรรจุไว้ล่วงหน้าเพื่อปรับใช้สภาพแวดล้อมการเรียนรู้เชิงลึกในไม่กี่นาที รูปภาพประกอบด้วยไลบรารีและเครื่องมือ PyTorch การเรียนรู้เชิงลึกที่จำเป็น คุณสามารถเพิ่มไลบรารีและเครื่องมือของคุณเองบนอิมเมจเหล่านี้เพื่อการควบคุมการตรวจสอบ การปฏิบัติตามข้อกำหนด และการประมวลผลข้อมูลในระดับที่สูงขึ้น

จากนั้นเราจะสร้างอิมเมจคอนเทนเนอร์เฉพาะโมเดลที่สรุปคอนฟิกูเรชันโมเดล การติดตามโมเดล และโค้ดที่เกี่ยวข้องเพื่อรันการส่งต่อ อิมเมจคอนเทนเนอร์ทั้งหมดถูกโหลดลงใน อเมซอน ECR เพื่อให้สามารถปรับขนาดแนวนอนของแบบจำลองเหล่านี้สำหรับการกำหนดค่าแบบจำลองต่างๆ เราใช้ บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (Amazon S3) เป็นที่เก็บข้อมูลทั่วไปสำหรับดาวน์โหลดการกำหนดค่าและอัปโหลดผลการวัดประสิทธิภาพสำหรับการสรุป คุณสามารถใช้สถาปัตยกรรมนี้เพื่อสร้างและทำซ้ำผลการวัดประสิทธิภาพและปรับเทียบใหม่เพื่อเปรียบเทียบประเภทโมเดลต่างๆ (เช่น โมเดล Hugging Face, โมเดล PyTorch, โมเดลที่กำหนดเองอื่นๆ) ในประเภทอินสแตนซ์ EC2 (CPU, GPU, Inf1)

ด้วยการตั้งค่าการทดสอบนี้ เป้าหมายของเราคือการศึกษาเวลาแฝงเป็นฟังก์ชันของปริมาณงาน เส้นโค้งนี้มีความสำคัญสำหรับการออกแบบแอปพลิเคชันเพื่อให้ได้โครงสร้างพื้นฐานที่เหมาะสมกับต้นทุนสำหรับแอปพลิเคชันเป้าหมาย เพื่อให้บรรลุสิ่งนี้ เราจำลองการโหลดที่แตกต่างกันโดยจัดคิวการสืบค้นจากหลายเธรด จากนั้นจึงวัดเวลาไปกลับสำหรับคำขอที่เสร็จสมบูรณ์แต่ละรายการ ปริมาณงานวัดตามจำนวนคำขอที่เสร็จสมบูรณ์ต่อหน่วยเวลานาฬิกา นอกจากนี้ คุณยังสามารถเปลี่ยนขนาดแบทช์และตัวแปรอื่นๆ เช่น ความยาวลำดับและความแม่นยำสูงสุดเทียบกับความแม่นยำเพียงครึ่งเดียว เพื่อกวาดพื้นที่การออกแบบอย่างครอบคลุมเพื่อให้ได้ตัวชี้วัดประสิทธิภาพที่บ่งชี้ ในการศึกษาของเรา ด้วยการวัดขนาดแบทช์และการสืบค้นจากไคลเอนต์แบบมัลติเธรด ผ่านการวัดพารามิเตอร์ของขนาดแบทช์และการสืบค้นข้อมูลแบบมัลติเธรด กราฟปริมาณงานเทียบกับเวลาแฝงจะถูกกำหนด ทุกคำขอสามารถแบทช์ได้เพื่อให้แน่ใจว่ามีการใช้ตัวเร่งความเร็วอย่างเต็มที่ โดยเฉพาะอย่างยิ่งสำหรับคำขอขนาดเล็กที่อาจใช้โหนดคอมพิวท์ได้ไม่เต็มที่ คุณยังสามารถใช้การตั้งค่านี้เพื่อระบุขนาดแบทช์ฝั่งไคลเอ็นต์เพื่อประสิทธิภาพสูงสุด

โดยสรุป เราสามารถแสดงปัญหานี้ทางคณิตศาสตร์เป็น: (ทรูพุต เวลาแฝง) = ฟังก์ชันของ (ขนาดแบทช์ จำนวนเธรด ความแม่นยำ)

ซึ่งหมายความว่า เมื่อพิจารณาจากพื้นที่ที่ละเอียดถี่ถ้วนแล้ว จำนวนการทดลองอาจมีมาก โชคดีที่แต่ละการทดสอบสามารถเรียกใช้ได้อย่างอิสระ เราแนะนำให้ใช้ ชุด AWS เพื่อทำการเปรียบเทียบตามมาตราส่วนแนวนอนในเวลาที่บีบอัดโดยไม่เพิ่มต้นทุนการเปรียบเทียบเมื่อเปรียบเทียบกับวิธีการทดสอบเชิงเส้นตรง รหัสสำหรับการจำลองผลลัพธ์มีอยู่ใน พื้นที่เก็บข้อมูล GitHub ที่เตรียมไว้สำหรับ AWS Re:Invent 2021 ที่เก็บครอบคลุมเพื่อดำเนินการเปรียบเทียบบนตัวเร่งความเร็วต่างๆ คุณสามารถอ้างถึงด้าน GPU ของโค้ดเพื่อสร้างคอนเทนเนอร์ (Dockerfile-gpu) แล้วอ้างอิงรหัสด้านใน Container-Root สำหรับตัวอย่างเฉพาะสำหรับ BERT และ ResNet50

เราใช้แนวทางก่อนหน้านี้เพื่อพัฒนาการศึกษาประสิทธิภาพในแบบจำลองสองประเภท: Bert-base-uncased (110 ล้านพารามิเตอร์, NLP) และ ResNet50 (25.6 ล้านพารามิเตอร์, CV) ตารางต่อไปนี้สรุปรายละเอียดโมเดล

ประเภทรุ่น รุ่น รายละเอียด
NLP twmkn9/bert-base-uncased-squad2 พารามิเตอร์ 110 ล้าน ความยาวของลำดับ = 128
CV เรสเน็ต50 25.6 ล้านพารามิเตอร์

นอกจากนี้ เพื่อเปรียบเทียบระหว่างประเภทข้อมูล (เต็ม ครึ่งความแม่นยำ) เราใช้ torch.cuda.ampซึ่งให้วิธีการที่สะดวกในการจัดการกับความแม่นยำแบบผสมที่การดำเนินการบางอย่างใช้ torch.float32 (ลอย) ชนิดข้อมูลและการใช้งานอื่น ๆ torch.float16 (ครึ่ง). ตัวอย่างเช่น ตัวดำเนินการ เช่น เลเยอร์เชิงเส้นและการโน้มน้าวใจจะเร็วกว่ามากเมื่อใช้ float16 ในขณะที่ตัวดำเนินการอื่นๆ เช่น การลดลงมักต้องการช่วงไดนามิกของ float32 ความแม่นยำแบบผสมอัตโนมัติพยายามจับคู่ผู้ให้บริการแต่ละรายกับประเภทข้อมูลที่เหมาะสมเพื่อปรับรันไทม์ของเครือข่ายและปริมาณหน่วยความจำให้เหมาะสม

ผลการเปรียบเทียบ

เพื่อการเปรียบเทียบที่ยุติธรรม เราเลือก G4dn.4xlarge และ G5.4xใหญ่ อินสแตนซ์ที่มีคุณสมบัติคล้ายคลึงกัน ดังที่แสดงในตารางต่อไปนี้

ตัวอย่าง GPUs หน่วยความจำ GPU (GiB) vCPU หน่วยความจำ (GiB) พื้นที่จัดเก็บอินสแตนซ์ (GB) ประสิทธิภาพของเครือข่าย (Gbps) แบนด์วิดท์ EBS (Gbps) ราคา Linux On-Demand (us-east-1)
G5.4xใหญ่ 1 24 16 64 1x600 NVMe SSD ถึง 25 8 $ 1.204 ชั่วโมง /
G4dn.4xlarge 1 16 16 64 1x225 NVMe SSD ถึง 25 4.75 $ 1.624 ชั่วโมง /

ในส่วนต่อไปนี้ เราเปรียบเทียบประสิทธิภาพการอนุมาน ML ของรุ่น BERT และ RESNET50 กับวิธีการกวาดกริดสำหรับขนาดแบทช์เฉพาะ (32, 16, 8, 4, 1) และความแม่นยำของประเภทข้อมูล (ความแม่นยำเต็มและครึ่งหนึ่ง) เพื่อให้ได้ปริมาณงาน เทียบกับเส้นโค้งเวลาแฝง นอกจากนี้ เรายังตรวจสอบผลกระทบของปริมาณงานเทียบกับขนาดแบทช์สำหรับความแม่นยำเต็มและครึ่งหนึ่ง สุดท้ายนี้ เราวัดต้นทุนต่อการอนุมานหนึ่งล้านรายการตามฟังก์ชันของขนาดแบทช์ ผลลัพธ์ที่รวมไว้ในการทดลองเหล่านี้จะสรุปได้ในภายหลังในโพสต์นี้

ปริมาณงานเทียบกับเวลาแฝง

ตัวเลขต่อไปนี้เปรียบเทียบอินสแตนซ์ G4dn และ G5 สำหรับปริมาณงาน NLP และ CV ที่ความแม่นยำเต็มและครึ่งหนึ่ง เมื่อเปรียบเทียบกับอินสแตนซ์ G4dn อินสแตนซ์ G5 ให้ปริมาณงานสูงกว่าประมาณห้าเท่า (ความแม่นยำสูงสุด) และสูงกว่าประมาณ 2.5 เท่า (ความแม่นยำครึ่งหนึ่ง) สำหรับรุ่นพื้นฐาน BERT และสูงกว่าประมาณ 2-2.5 เท่าสำหรับรุ่น ResNet50 โดยรวมแล้ว G5 เป็นตัวเลือกที่ต้องการ โดยเพิ่มขนาดแบทช์สำหรับทั้งสองรุ่นสำหรับทั้งความแม่นยำเต็มรูปแบบและแบบผสมจากมุมมองของประสิทธิภาพ

กราฟต่อไปนี้เปรียบเทียบปริมาณงานและเวลาแฝง P95 ที่ความแม่นยำสูงสุดและครึ่งเดียวสำหรับ BERT

รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

กราฟต่อไปนี้เปรียบเทียบปริมาณงานและเวลาแฝง P95 ที่ความแม่นยำสูงสุดและครึ่งเดียวสำหรับ ResNet50

รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ปริมาณงานและเวลาแฝงเทียบกับขนาดแบทช์

กราฟต่อไปนี้แสดงปริมาณงานเป็นฟังก์ชันของขนาดแบทช์ ที่ขนาดแบทช์ต่ำ ตัวเร่งความเร็วจะไม่ทำงานอย่างเต็มประสิทธิภาพ และเมื่อขนาดแบทช์เพิ่มขึ้น ปริมาณงานจะเพิ่มขึ้นตามต้นทุนของเวลาแฝง เส้นกราฟปริมาณงานจะกำหนดเป็นค่าสูงสุดซึ่งเป็นฟังก์ชันของประสิทธิภาพของตัวเร่งความเร็ว เส้นโค้งมีคุณสมบัติที่แตกต่างกันสองประการ: ส่วนที่เพิ่มขึ้นและส่วนที่ไม่มีซีมโทติคแบบแบน สำหรับรุ่นที่กำหนด เครื่องเร่งประสิทธิภาพ (G5) สามารถขยายส่วนที่เพิ่มขึ้นเป็นขนาดแบทช์ที่สูงกว่า G4dn และเส้นกำกับที่ปริมาณงานที่สูงขึ้น นอกจากนี้ยังมีการแลกเปลี่ยนเชิงเส้นระหว่างเวลาแฝงและขนาดแบทช์ ดังนั้น หากแอปพลิเคชันถูกผูกไว้กับเวลาแฝง เราสามารถใช้เวลาแฝง P95 กับขนาดแบทช์เพื่อกำหนดขนาดแบทช์ที่เหมาะสมที่สุด อย่างไรก็ตาม หากวัตถุประสงค์คือเพื่อเพิ่มปริมาณงานให้สูงสุดที่เวลาแฝงต่ำสุด จะเป็นการดีกว่าที่จะเลือกขนาดแบทช์ที่สอดคล้องกับ "เข่า" ระหว่างส่วนที่ยกขึ้นและส่วนที่ไม่มีอาการ เนื่องจากขนาดชุดงานที่เพิ่มขึ้นอีกจะส่งผลให้ปริมาณงานเท่ากันที่ เวลาแฝงที่แย่ลง เพื่อให้ได้อัตราส่วนราคาต่อประสิทธิภาพที่ดีที่สุด โดยกำหนดเป้าหมายปริมาณงานที่สูงขึ้นในเวลาแฝงที่ต่ำที่สุด คุณควรปรับขนาดที่เหมาะสมที่สุดในแนวนอนนี้ผ่านเซิร์ฟเวอร์การอนุมานหลายเซิร์ฟเวอร์ แทนที่จะเพิ่มขนาดแบทช์

รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ต้นทุนเทียบกับขนาดแบทช์

ในส่วนนี้ เรานำเสนอผลลัพธ์เปรียบเทียบของต้นทุนการอนุมาน ($ ต่อการอนุมานหนึ่งล้านเหรียญ) กับขนาดแบทช์ จากรูปต่อไปนี้ เราสามารถสังเกตได้อย่างชัดเจนว่าค่าใช้จ่าย (วัดจากการอนุมาน $ ต่อล้าน) นั้นต่ำกว่าอย่างสม่ำเสมอด้วย G5 เทียบกับ G4dn ทั้ง (เต็มและครึ่งความแม่นยำ)

รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ตารางต่อไปนี้สรุปการเปรียบเทียบปริมาณงาน เวลาแฝง และราคา ($ ต่อการอนุมานหนึ่งล้านเหรียญ) สำหรับรุ่น BERT และ RESNET50 ในโหมดความแม่นยำทั้งสองสำหรับขนาดแบทช์เฉพาะ แม้จะมีต้นทุนต่ออินสแตนซ์สูงขึ้น G5 ก็ยังมีประสิทธิภาพเหนือกว่า G4dn อย่างสม่ำเสมอในทุกด้านของเวลาแฝงในการอนุมาน ปริมาณงาน และต้นทุน (การอนุมาน $ ต่อการอนุมาน) สำหรับทุกขนาดแบทช์ การรวมตัววัดต่างๆ เข้าด้วยกันเป็นต้นทุน ($ ต่อการอนุมานหนึ่งล้านเหรียญ) โมเดล BERT (ขนาดแบทช์ 32 ความแม่นยำเต็ม) กับ G5 นั้นดีกว่า G3.7dn 4 เท่า และด้วยรุ่น ResNet50 (ขนาดแบทช์ 32 ความแม่นยำเต็ม) เท่ากับ 1.6 ดีกว่า G4dn หลายเท่า

รุ่น ขนาดแบทช์ ความแม่นยำ

ทางเข้า

(ขนาดแบทช์ X คำขอ/วินาที)

เวลาแฝง (วินาที)

$/ล้าน

การอนุมาน (ตามความต้องการ)

ผลประโยชน์ด้านต้นทุน

(G5 มากกว่า G4dn)

. . . G5 G4dn G5 G4dn G5 G4dn
Bert-ฐานที่ไม่ได้ใส่ 32 เต็ม 723 154 44 208 $0.6 $2.2 3.7X
ผสม 870 410 37 79 $0.5 $0.8 1.6X
16 เต็ม 651 158 25 102 $0.7 $2.1 3.0X
ผสม 762 376 21 43 $0.6 $0.9 1.5X
8 เต็ม 642 142 13 57 $0.7 $2.3 3.3X
ผสม 681 350 12 23 $0.7 $1.0 1.4X
. 1 เต็ม 160 116 6 9 $2.8 $2.9 1.0X
ผสม 137 102 7 10 $3.3 $3.3 1.0X
เรสเน็ต50 32 เต็ม 941 397 34 82 $0.5 $0.8 1.6X
ผสม 1533 851 21 38 $0.3 $0.4 1.3X
16 เต็ม 888 384 18 42 $0.5 $0.9 1.8X
ผสม 1474 819 11 20 $0.3 $0.4 1.3X
8 เต็ม 805 340 10 24 $0.6 $1.0 1.7X
ผสม 1419 772 6 10 $0.3 $0.4 1.3X
. 1 เต็ม 202 164 5 6 $2.2 $2 0.9X
ผสม 196 180 5 6 $2.3 $1.9 0.8X

เกณฑ์มาตรฐานการอนุมานเพิ่มเติม

นอกจากผลลัพธ์ของ BERT base และ ResNet50 ในส่วนก่อนหน้าแล้ว เรานำเสนอผลการเปรียบเทียบเพิ่มเติมสำหรับโมเดล NLP และ CV ขนาดใหญ่อื่นๆ ที่ใช้กันทั่วไปใน PyTorch ประโยชน์ด้านประสิทธิภาพของ G5 เหนือ G4dn ได้รับการนำเสนอสำหรับรุ่น BERT Large ที่มีความแม่นยำหลากหลาย และรุ่น Yolo-v5 สำหรับขนาดต่างๆ สำหรับโค้ดสำหรับการจำลองเบนช์มาร์ก โปรดดูที่ ตัวอย่างการเรียนรู้เชิงลึกของ NVIDIA สำหรับ Tensor Cores. ผลลัพธ์เหล่านี้แสดงให้เห็นถึงประโยชน์ของการใช้ G5 บน G4dn สำหรับงานอนุมานที่หลากหลายซึ่งครอบคลุมประเภทโมเดลต่างๆ

รุ่น ความแม่นยำ ขนาดแบทช์ ลำดับความยาว ปริมาณงาน (ส่ง/วินาที) ปริมาณงาน: G4dn เร่งความเร็วเหนือ G4dn
BERT-ขนาดใหญ่ FP16 1 128 93.5 40.31 2.3
BERT-ขนาดใหญ่ FP16 4 128 264.2 87.4 3.0
BERT-ขนาดใหญ่ FP16 8 128 392.1 107.5 3.6
BERT-ขนาดใหญ่ FP32 1 128 68.4 22.67 3.0
BERT-ขนาดใหญ่ 4 128 118.5 32.21 3.7
BERT-ขนาดใหญ่ 8 128 132.4 34.67 3.8
รุ่น GFLOPS จำนวนพารามิเตอร์ การประมวลผลล่วงหน้า (มิลลิวินาที) การอนุมาน (มิลลิวินาที) การอนุมาน (การปราบปรามแบบไม่สูงสุด) (NMS/ภาพ)
YOLOv5s 16.5 7.2M 0.2 3.6 4.5
โยลอฟ5ม 49.1 21M 0.2 6.5 4.5
โยลอฟ5ล 109.3 46M 0.2 9.1 3.5
YOLOv5x 205.9 86M 0.2 14.4 1.3

สรุป

ในโพสต์นี้ เราแสดงให้เห็นว่าสำหรับการอนุมานด้วยโมเดล NLP และ CV PyTorch ขนาดใหญ่ อินสแตนซ์ EC2 G5 เป็นตัวเลือกที่ดีกว่าเมื่อเทียบกับอินสแตนซ์ G4dn แม้ว่าค่าใช้จ่ายรายชั่วโมงแบบออนดีมานด์สำหรับอินสแตนซ์ G5 จะสูงกว่าอินสแตนซ์ G4dn แต่ประสิทธิภาพที่สูงขึ้นสามารถบรรลุปริมาณงานได้ 2–5 เท่าในทุกความแม่นยำสำหรับรุ่น NLP และ CV ซึ่งทำให้ต้นทุนต่อล้านการอนุมานดีกว่า 1.5–3.5 เท่า อินสแตนซ์ G4dn แม้แต่สำหรับแอปพลิเคชันที่ผูกกับเวลาแฝง G5 ก็ดีกว่า G2.5dn 5–4 เท่าสำหรับรุ่น NLP และ CV

โดยสรุป อินสแตนซ์ AWS G5 เป็นตัวเลือกที่ยอดเยี่ยมสำหรับความต้องการการอนุมานของคุณ ทั้งจากมุมมองด้านประสิทธิภาพและราคาต่อการอนุมาน ความเป็นสากลของเฟรมเวิร์ก CUDA และขนาดและความลึกของพูลอินสแตนซ์ G5 บน AWS ทำให้คุณมีความสามารถเฉพาะตัวในการอนุมานตามขนาด


เกี่ยวกับผู้แต่ง

รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.อังกูร ศรีสวัสดิ์ เป็น Sr. Solutions Architect ในทีม ML Frameworks เขามุ่งเน้นที่การช่วยเหลือลูกค้าด้วยการฝึกอบรมแบบกระจายที่จัดการด้วยตนเองและการอนุมานบน AWS ประสบการณ์ของเขารวมถึงการบำรุงรักษาเชิงคาดการณ์ทางอุตสาหกรรม ฝาแฝดดิจิทัล การเพิ่มประสิทธิภาพการออกแบบที่น่าจะเป็นไปได้ และสำเร็จการศึกษาระดับปริญญาเอกจากวิศวกรรมเครื่องกลที่มหาวิทยาลัยไรซ์ และการวิจัยระดับหลังปริญญาเอกจากสถาบันเทคโนโลยีแมสซาชูเซตส์

รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ซุนดาร์ รังคนาธาน เป็นหัวหน้าฝ่ายพัฒนาธุรกิจ ML Frameworks ในทีม Amazon EC2 เขามุ่งเน้นไปที่ปริมาณงาน ML ขนาดใหญ่ในบริการต่างๆ ของ AWS เช่น Amazon EKS, Amazon ECS, Elastic Fabric Adapter, AWS Batch และ Amazon SageMaker ประสบการณ์ของเขารวมถึงบทบาทความเป็นผู้นำในการจัดการผลิตภัณฑ์และการพัฒนาผลิตภัณฑ์ที่ NetApp, Micron Technology, Qualcomm และ Mentor Graphics

รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.มหาเทวัน บาละสุบรามาเนียม เป็น Principal Solutions Architect for Autonomous Computing ด้วยประสบการณ์เกือบ 20 ปีในด้านการเรียนรู้เชิงลึกที่สร้างและปรับใช้ระบบดิจิทัลสำหรับระบบอุตสาหกรรมในขนาดต่างๆ Mahadevan สำเร็จการศึกษาระดับปริญญาเอกสาขาวิศวกรรมเครื่องกลจากสถาบันเทคโนโลยีแมสซาชูเซตส์ และมีสิทธิบัตรและสิ่งพิมพ์มากกว่า 25 รายการให้เครดิตของเขา

รับปริมาณการประมวลผลการอนุมาน ML ที่สูงขึ้นสี่เท่าโดยมีต้นทุนต่อการอนุมานที่ลดลงสามเท่าด้วย Amazon EC2 G5 instance สำหรับ NLP และ CV PyTorch รุ่น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI. อมร รากาบ เป็น Principal Solutions Architect สำหรับ EC2 Accelerated Platforms สำหรับ AWS ที่อุทิศให้กับการช่วยเหลือลูกค้าในการรันเวิร์คโหลดการคำนวณในวงกว้าง ในเวลาว่าง เขาชอบการเดินทางและค้นหาวิธีใหม่ๆ ในการผสมผสานเทคโนโลยีเข้ากับชีวิตประจำวัน

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS