ลดการใช้พลังงานของปริมาณงานแมชชีนเลิร์นนิ่งของคุณได้ถึง 90% ด้วยตัวเร่งความเร็วที่สร้างขึ้นตามวัตถุประสงค์ของ AWS | บริการเว็บอเมซอน

ลดการใช้พลังงานของปริมาณงานแมชชีนเลิร์นนิ่งของคุณได้ถึง 90% ด้วยตัวเร่งความเร็วที่สร้างขึ้นตามวัตถุประสงค์ของ AWS | บริการเว็บอเมซอน

วิศวกรแมชชีนเลิร์นนิง (ML) มักจะมุ่งเน้นไปที่การสร้างสมดุลระหว่างการฝึกอบรมโมเดลและต้นทุนการปรับใช้เทียบกับประสิทธิภาพ ความยั่งยืน (ประสิทธิภาพการใช้พลังงาน) กลายเป็นเป้าหมายเพิ่มเติมสำหรับลูกค้ามากขึ้นเรื่อยๆ สิ่งนี้มีความสำคัญเนื่องจากการฝึกโมเดล ML แล้วใช้โมเดลที่ผ่านการฝึกอบรมเพื่อทำการคาดการณ์ (การอนุมาน) อาจเป็นงานที่ใช้พลังงานมาก นอกจากนี้ แอปพลิเคชันจำนวนมากขึ้นเรื่อยๆ รอบตัวเราได้ผสมผสานกับ ML และแอปพลิเคชันที่ขับเคลื่อนด้วย ML ใหม่ๆ เกิดขึ้นทุกวัน ตัวอย่างที่ได้รับความนิยมคือ ChatGPT ของ OpenAI ซึ่งขับเคลื่อนโดยโมเดลภาษาขนาดใหญ่ (LMM) ที่ล้ำสมัย สำหรับการอ้างอิง GPT-3 ซึ่งเป็น LLM รุ่นก่อนหน้า มีพารามิเตอร์ 175 พันล้านพารามิเตอร์และต้องใช้เวลาหลายเดือนในการฝึกอบรมแบบไม่หยุดนิ่งกับคลัสเตอร์ของโปรเซสเซอร์เร่งความเร็วนับพันตัว เดอะ การศึกษาติดตามคาร์บอน ประมาณการว่าการฝึก GPT-3 ตั้งแต่เริ่มต้นอาจปล่อย CO85 เทียบเท่าได้มากถึง 2 เมตริกตัน โดยใช้คลัสเตอร์ของตัวเร่งฮาร์ดแวร์พิเศษ

มีหลายวิธีที่ AWS ช่วยให้ผู้ปฏิบัติงาน ML ลดผลกระทบต่อสิ่งแวดล้อมจากปริมาณงานของตนได้ วิธีหนึ่งคือการให้ คำแนะนำที่กำหนดเกี่ยวกับสถาปัตยกรรมปริมาณงาน AI/ML ของคุณเพื่อความยั่งยืน. อีกวิธีหนึ่งคือการนำเสนอบริการฝึกอบรม ML และการประสานการจัดการ เช่น สตูดิโอ Amazon SageMakerซึ่งลดขนาดและเพิ่มขนาดทรัพยากร ML โดยอัตโนมัติเมื่อไม่ได้ใช้งาน และให้โฮสต์ของเครื่องมือนอกกรอบที่ช่วยประหยัดค่าใช้จ่ายและทรัพยากร ปัจจัยสำคัญอีกประการหนึ่งคือการพัฒนาของ ตัวเร่งความเร็วที่ประหยัดพลังงาน ประสิทธิภาพสูง และสร้างขึ้นตามวัตถุประสงค์ สำหรับการฝึกอบรมและปรับใช้โมเดล ML

จุดเน้นของโพสต์นี้อยู่ที่ฮาร์ดแวร์ในฐานะคันโยกสำหรับ ML ที่ยั่งยืน เรานำเสนอผลลัพธ์ของประสิทธิภาพล่าสุดและการทดสอบการดึงพลังงานที่ดำเนินการโดย AWS ซึ่งจะประเมินผลประโยชน์ด้านพลังงานอย่างมีประสิทธิภาพที่คุณคาดหวังได้เมื่อย้ายปริมาณงานการเรียนรู้เชิงลึกจากการอนุมานและการฝึกอบรมแบบเร่งความเร็วอื่นๆ อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (Amazon EC2) อินสแตนซ์เป็น การอนุมาน AWS และ การฝึกอบรม AWS. Inferentia และ Trainium คือ การเพิ่มล่าสุดของ AWS ในพอร์ตโฟลิโอของตัวเร่งความเร็วที่สร้างขึ้นตามวัตถุประสงค์ ออกแบบมาโดยเฉพาะโดย Amazon's อันนะปุรณะแล็บ สำหรับการอนุมาน ML และเวิร์กโหลดการฝึกอบรม

AWS Inferentia และ AWS Trainium สำหรับ ML ที่ยั่งยืน

เพื่อให้คุณได้รับตัวเลขที่เป็นจริงของศักยภาพการประหยัดพลังงานของ AWS Inferentia และ AWS Trainium ในแอปพลิเคชันในโลกแห่งความเป็นจริง เราได้ทำการทดสอบมาตรฐานการดึงพลังงานหลายครั้ง เราได้ออกแบบเกณฑ์มาตรฐานเหล่านี้โดยคำนึงถึงเกณฑ์สำคัญดังต่อไปนี้:

  • อันดับแรก เราต้องการให้แน่ใจว่าเราบันทึกการใช้พลังงานโดยตรงที่เกิดจากปริมาณงานทดสอบ ซึ่งรวมถึงไม่ใช่แค่ตัวเร่งความเร็ว ML เท่านั้น แต่ยังรวมถึงการประมวลผล หน่วยความจำ และเครือข่ายด้วย ดังนั้น ในการตั้งค่าการทดสอบของเรา เราจึงวัดการดึงพลังงานที่ระดับนั้น
  • ประการที่สอง เมื่อเรียกใช้เวิร์กโหลดการฝึกอบรมและการอนุมาน เราตรวจสอบให้แน่ใจว่าอินสแตนซ์ทั้งหมดทำงานตามขีดจำกัดของฮาร์ดแวร์ทางกายภาพที่เกี่ยวข้อง และทำการวัดหลังจากถึงขีดจำกัดนั้นเท่านั้นเพื่อให้แน่ใจว่าสามารถเปรียบเทียบได้
  • สุดท้าย เราต้องการให้แน่ใจว่าการประหยัดพลังงานที่รายงานในโพสต์นี้สามารถทำได้จริงในการใช้งานจริง ดังนั้นเราจึงใช้กรณีการใช้งาน ML ที่ได้แรงบันดาลใจจากลูกค้าทั่วไปสำหรับการเปรียบเทียบและการทดสอบ

ผลลัพธ์จะถูกรายงานในส่วนต่อไปนี้

การทดลองอนุมาน: การทำความเข้าใจเอกสารตามเวลาจริงด้วย LayoutLM

การอนุมาน ตรงข้ามกับการฝึกอบรม เป็นภาระงานที่ต่อเนื่องไม่มีขอบเขตซึ่งไม่มีจุดสิ้นสุดที่กำหนดไว้ ดังนั้นจึงทำให้ปริมาณการใช้ทรัพยากรตลอดอายุการใช้งานของปริมาณงาน ML เป็นส่วนใหญ่ การอนุมานที่ถูกต้องเป็นกุญแจสำคัญในการบรรลุประสิทธิภาพสูง ต้นทุนต่ำ และความยั่งยืน (ประสิทธิภาพการใช้พลังงานที่ดีขึ้น) ตลอดวงจรชีวิตของ ML ในงานอนุมาน ลูกค้ามักจะสนใจที่จะบรรลุอัตราการอนุมานที่แน่นอนเพื่อให้ทันกับความต้องการนำเข้า

การทดลองที่นำเสนอในโพสต์นี้ได้รับแรงบันดาลใจจากกรณีการใช้งานเพื่อทำความเข้าใจเอกสารแบบเรียลไทม์ ซึ่งเป็นแอปพลิเคชันทั่วไปในอุตสาหกรรมต่างๆ เช่น การธนาคารหรือการประกันภัย (เช่น สำหรับการเรียกร้องค่าสินไหมทดแทนหรือการประมวลผลแบบฟอร์มใบสมัคร) เราเลือกโดยเฉพาะ เลย์เอาต์LMแบบจำลองหม้อแปลงที่ผ่านการฝึกอบรมล่วงหน้าใช้สำหรับการประมวลผลภาพเอกสารและการดึงข้อมูล เรากำหนด SLA เป้าหมายไว้ที่ 1,000,000 การอนุมานต่อชั่วโมง ซึ่งเป็นค่าที่มักพิจารณาตามเวลาจริง จากนั้นจึงระบุการกำหนดค่าฮาร์ดแวร์สองรายการที่สามารถตอบสนองความต้องการนี้: หนึ่งรายการใช้ อินสแตนซ์ Amazon EC2 Inf1ซึ่งมี AWS Inferentia และอีกรายการหนึ่งที่ใช้อินสแตนซ์ EC2 ที่เร่งความเร็วที่เทียบเคียงได้ซึ่งปรับให้เหมาะกับงานการอนุมาน ตลอดการทดสอบ เราติดตามตัวบ่งชี้หลายตัวเพื่อวัดประสิทธิภาพการอนุมาน ต้นทุน และประสิทธิภาพพลังงานของการกำหนดค่าฮาร์ดแวร์ทั้งสอง ผลลัพธ์จะแสดงในรูปต่อไปนี้

ลดการใช้พลังงานของปริมาณงาน Machine Learning ของคุณได้สูงสุดถึง 90% ด้วยตัวเร่งความเร็วที่สร้างขึ้นตามวัตถุประสงค์ของ AWS | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.

ผลลัพธ์ประสิทธิภาพ ต้นทุน และประสิทธิภาพพลังงานของเกณฑ์มาตรฐานอนุมาน

AWS Inferentia ให้ปริมาณการอนุมานที่สูงขึ้น 6.3 เท่า ด้วยเหตุนี้ ด้วย Inferentia คุณสามารถเรียกใช้ปริมาณงานการทำความเข้าใจเอกสารตาม LayoutLM ตามเวลาจริงเดียวกันในอินสแตนซ์ที่น้อยลง (6 อินสแตนซ์ AWS Inferentia เทียบกับ 33 อินสแตนซ์ EC2 ที่เพิ่มประสิทธิภาพการอนุมาน เทียบเท่ากับการลดลง 82%) ใช้น้อยลง มากกว่าหนึ่งในสิบ (-92%) ของพลังงานในกระบวนการ ทั้งหมดนี้ทำให้ต้นทุนต่อการอนุมานลดลงอย่างมาก (2 เหรียญสหรัฐฯ เทียบกับ 25 เหรียญสหรัฐฯ ต่อการอนุมาน 91 ล้านครั้ง ซึ่งเทียบเท่ากับต้นทุนที่ลดลง XNUMX%)

การทดลองการฝึกอบรม: การฝึก BERT ขนาดใหญ่ตั้งแต่เริ่มต้น

การฝึกอบรม ตรงข้ามกับการอนุมาน เป็นกระบวนการจำกัดที่ทำซ้ำไม่บ่อยนัก โดยทั่วไปแล้ว วิศวกร ML จะสนใจประสิทธิภาพของคลัสเตอร์ระดับสูงเพื่อลดเวลาการฝึกอบรมในขณะที่ควบคุมต้นทุนได้ ประสิทธิภาพการใช้พลังงานเป็นข้อกังวลรองลงมา เมื่อใช้ AWS Trainium จะไม่มีการตัดสินใจยอมแลก: วิศวกร ML จะได้รับประโยชน์จากประสิทธิภาพการฝึกอบรมระดับสูง ในขณะเดียวกันก็ปรับให้เหมาะสมสำหรับต้นทุนและลดผลกระทบต่อสิ่งแวดล้อม

เพื่อแสดงให้เห็นสิ่งนี้ เราเลือก เบิร์ตขนาดใหญ่ซึ่งเป็นโมเดลภาษายอดนิยมที่ใช้สำหรับกรณีการใช้งานที่เข้าใจภาษาธรรมชาติ เช่น การตอบคำถามโดยใช้แชทบอทและการคาดคะเนคำตอบจากการสนทนา การฝึกอบรมโมเดลขนาดใหญ่ของ BERT ที่มีประสิทธิภาพดีตั้งแต่เริ่มต้น โดยทั่วไปแล้วจะต้องดำเนินการ 450 ล้านลำดับ เราเปรียบเทียบการกำหนดค่าคลัสเตอร์สองรายการ แต่ละรายการมีขนาดคงที่ 16 อินสแตนซ์และสามารถฝึก BERT Large ได้ตั้งแต่เริ่มต้น (ประมวลผล 450 ล้านลำดับ) ในเวลาน้อยกว่าหนึ่งวัน แบบแรกใช้อินสแตนซ์ EC2 แบบเร่งความเร็วแบบดั้งเดิม การตั้งค่าที่สองใช้ อินสแตนซ์ Amazon EC2 Trn1 นำเสนอ AWS Trainium อีกครั้ง เราเปรียบเทียบการกำหนดค่าทั้งสองในแง่ของประสิทธิภาพการฝึกอบรม ต้นทุน และผลกระทบต่อสิ่งแวดล้อม (ประสิทธิภาพการใช้พลังงาน) ผลลัพธ์จะแสดงในรูปต่อไปนี้

ลดการใช้พลังงานของปริมาณงาน Machine Learning ของคุณได้สูงสุดถึง 90% ด้วยตัวเร่งความเร็วที่สร้างขึ้นตามวัตถุประสงค์ของ AWS | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.

ผลการปฏิบัติงาน ต้นทุน และประสิทธิภาพพลังงานของเกณฑ์มาตรฐานการฝึกอบรม

ในการทดลอง อินสแตนซ์ที่ใช้ AWS Trainium มีประสิทธิภาพดีกว่าอินสแตนซ์ EC2 แบบเร่งความเร็วที่ปรับให้เหมาะสมสำหรับการฝึกอบรมที่เทียบเคียงได้ 1.7 เท่าในแง่ของลำดับที่ประมวลผลต่อชั่วโมง ลดเวลาการฝึกอบรมทั้งหมดลง 43% (2.3 ชม. เทียบกับ 4 ชม. สำหรับอินสแตนซ์ EC2 ที่เร่งความเร็วเทียบเคียง) . ด้วยเหตุนี้ เมื่อใช้คลัสเตอร์อินสแตนซ์ที่ใช้ Trainium การใช้พลังงานทั้งหมดสำหรับการฝึกอบรม BERT Large ตั้งแต่เริ่มต้นจะลดลงประมาณ 29% เมื่อเทียบกับคลัสเตอร์ขนาดเดียวกันของอินสแตนซ์ EC2 ที่เร่งความเร็วที่เปรียบเทียบกันได้ ข้อดีด้านประสิทธิภาพและประสิทธิภาพการใช้พลังงานเหล่านี้ยังมาพร้อมกับการปรับปรุงต้นทุนที่สำคัญอีกด้วย: ค่าใช้จ่ายในการฝึกอบรมสำหรับปริมาณงาน BERT ML ลดลงประมาณ 62% สำหรับอินสแตนซ์ Trainium (787 ดอลลาร์สหรัฐฯ เทียบกับ 2091 ดอลลาร์สหรัฐฯ ต่อการเรียกใช้การฝึกอบรมเต็มรูปแบบ)

เริ่มต้นใช้งาน AWS Accelerator ที่สร้างขึ้นตามวัตถุประสงค์สำหรับ ML

แม้ว่าการทดลองที่ดำเนินการที่นี่ทั้งหมดจะใช้โมเดลมาตรฐานจากโดเมนการประมวลผลภาษาธรรมชาติ (NLP) แต่ AWS Inferentia และ AWS Trainium นั้นเหนือกว่าด้วยสถาปัตยกรรมโมเดลที่ซับซ้อนอื่นๆ อีกมากมาย รวมถึง LLM และสิ่งที่ท้าทายที่สุด AI กำเนิด สถาปัตยกรรมที่ผู้ใช้กำลังสร้าง (เช่น GPT-3) ตัวเร่งความเร็วเหล่านี้ทำงานได้ดีเป็นพิเศษกับโมเดลที่มีพารามิเตอร์มากกว่า 10 พันล้านพารามิเตอร์ หรือโมเดลการมองเห็นด้วยคอมพิวเตอร์ เช่น การแพร่กระจายที่เสถียร (ดู แนวทางความพอดีของสถาปัตยกรรมแบบจำลอง สำหรับรายละเอียดเพิ่มเติม) ลูกค้าของเราจำนวนมากใช้ Inferentia และ Trainium ในรูปแบบต่างๆ อยู่แล้ว กรณีการใช้งาน ML.

ในการเรียกใช้ปริมาณงานการเรียนรู้เชิงลึกแบบ end-to-end บนอินสแตนซ์ที่ใช้ AWS Inferentia และ AWS Trainium คุณสามารถใช้ AWS เซลล์ประสาท. Neuron เป็นชุดพัฒนาซอฟต์แวร์แบบ end-to-end (SDK) ที่มีคอมไพเลอร์การเรียนรู้เชิงลึก รันไทม์ และเครื่องมือที่รวมอยู่ในเฟรมเวิร์ก ML ยอดนิยมอย่าง TensorFlow และ PyTorch คุณสามารถใช้ Neuron SDK เพื่อพอร์ตเวิร์กโหลด ML การเรียนรู้เชิงลึกของ TensorFlow หรือ PyTorch ที่มีอยู่ไปยัง Inferentia และ Trainium ได้อย่างง่ายดาย และเริ่มสร้างโมเดลใหม่โดยใช้เฟรมเวิร์ก ML ที่รู้จักกันดี เพื่อการตั้งค่าที่ง่ายขึ้น ให้ใช้หนึ่งในนั้นของเรา Amazon Machine Image (AMI) สำหรับการเรียนรู้เชิงลึกซึ่งมาพร้อมกับแพ็คเกจและการอ้างอิงที่จำเป็นมากมาย ง่ายกว่านั้น: คุณสามารถใช้ Amazon SageMaker Studio ซึ่งรองรับ TensorFlow และ PyTorch บน Inferentia และ Trainium ได้ตามปกติ (ดู ตัวอย่าง aws GitHub repo ตัวอย่างเช่น)

หมายเหตุสุดท้าย: แม้ว่า Inferentia และ Trainium จะสร้างขึ้นเพื่อจุดประสงค์สำหรับเวิร์กโหลดการเรียนรู้เชิงลึก แต่อัลกอริทึม ML ที่ซับซ้อนน้อยกว่าจำนวนมากสามารถทำงานได้ดีบนอินสแตนซ์ที่ใช้ CPU (ตัวอย่างเช่น XGBoost และ LightGBM และแม้กระทั่ง ซีเอ็นเอ็นบางแห่ง). ในกรณีเหล่านี้ การโยกย้ายไปยัง AWS Graviton3 อาจลดผลกระทบต่อสิ่งแวดล้อมของปริมาณงาน ML ของคุณได้อย่างมาก อินสแตนซ์ที่ใช้ AWS Graviton ใช้พลังงานน้อยกว่าถึง 60% สำหรับประสิทธิภาพเดียวกันเมื่อเทียบกับอินสแตนซ์ EC2 ที่เร่งความเร็วที่เทียบเคียงได้

สรุป

มีความเข้าใจผิดกันทั่วไปว่าการรันเวิร์กโหลด ML ในรูปแบบที่ยั่งยืนและประหยัดพลังงานหมายถึงการเสียสละประสิทธิภาพหรือต้นทุน ด้วยตัวเร่งความเร็วที่สร้างขึ้นตามวัตถุประสงค์ของ AWS สำหรับแมชชีนเลิร์นนิง วิศวกร ML ไม่จำเป็นต้องยอมแลก แต่พวกเขาสามารถเรียกใช้ปริมาณงานการเรียนรู้เชิงลึกบนฮาร์ดแวร์การเรียนรู้เชิงลึกที่สร้างขึ้นตามวัตถุประสงค์เฉพาะ เช่น AWS Inferentia และ AWS Trainium ซึ่งมีประสิทธิภาพดีกว่าประเภทอินสแตนซ์ EC2 ที่เร่งความเร็วที่เทียบเคียงได้อย่างมีนัยสำคัญ มอบต้นทุนที่ต่ำกว่า ประสิทธิภาพที่สูงขึ้น และประสิทธิภาพการใช้พลังงานที่ดีขึ้น สูงสุด 90%—ทั้งหมดในเวลาเดียวกัน หากต้องการเริ่มรันเวิร์กโหลด ML ของคุณบน Inferentia และ Trainium โปรดดูที่ เอกสาร AWS Neuron หรือหมุนตัวใดตัวหนึ่ง โน๊ตบุ๊คตัวอย่าง. คุณยังสามารถรับชมการพูดคุยของ AWS re:Invent 2022 ได้อีกด้วย ความยั่งยืนและซิลิคอน AWS (SUS206)ซึ่งครอบคลุมหลายหัวข้อที่กล่าวถึงในโพสต์นี้


เกี่ยวกับผู้เขียน

ลดการใช้พลังงานของปริมาณงาน Machine Learning ของคุณได้สูงสุดถึง 90% ด้วยตัวเร่งความเร็วที่สร้างขึ้นตามวัตถุประสงค์ของ AWS | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.คาร์สเตน ชโรเออร์ เป็นสถาปนิกโซลูชันที่ AWS เขาสนับสนุนลูกค้าในการใช้ประโยชน์จากข้อมูลและเทคโนโลยีเพื่อขับเคลื่อนความยั่งยืนของโครงสร้างพื้นฐานด้านไอที และสร้างโซลูชันที่ขับเคลื่อนด้วยข้อมูลที่ช่วยให้สามารถดำเนินการได้อย่างยั่งยืนในแนวดิ่งของตน Karsten เข้าร่วม AWS หลังจากศึกษาระดับปริญญาเอกด้านการเรียนรู้ของเครื่องประยุกต์และการจัดการการดำเนินงาน เขาหลงใหลอย่างแท้จริงเกี่ยวกับโซลูชันที่ใช้เทคโนโลยีเพื่อรับมือกับความท้าทายทางสังคม และชอบที่จะเจาะลึกลงไปในวิธีการและสถาปัตยกรรมแอปพลิเคชันที่เป็นรากฐานของโซลูชันเหล่านี้

ลดการใช้พลังงานของปริมาณงาน Machine Learning ของคุณได้สูงสุดถึง 90% ด้วยตัวเร่งความเร็วที่สร้างขึ้นตามวัตถุประสงค์ของ AWS | Amazon Web Services PlatoBlockchain ข้อมูลอัจฉริยะ ค้นหาแนวตั้ง AI.กำนันขัน เป็นผู้จัดการผลิตภัณฑ์ด้านเทคนิคอาวุโสที่ AWS Annapurna Labs เขาทำงานอย่างใกล้ชิดกับลูกค้า AI/ML เพื่อกำหนดแผนงานสำหรับนวัตกรรมซิลิคอนที่สร้างขึ้นตามวัตถุประสงค์ของ AWS ที่ออกมาจาก Annapurna Labs ของ Amazon เขามุ่งเน้นที่ชิปการเรียนรู้เชิงลึกแบบเร่งความเร็ว ซึ่งรวมถึง AWS Trainium และ AWS Inferentia Kamran มีประสบการณ์ 18 ปีในอุตสาหกรรมเซมิคอนดักเตอร์ Kamran มีประสบการณ์กว่าทศวรรษในการช่วยนักพัฒนาให้บรรลุเป้าหมาย ML

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS

วิเคราะห์การใช้จ่ายของ Amazon SageMaker และกำหนดโอกาสในการเพิ่มประสิทธิภาพต้นทุนตามการใช้งาน ส่วนที่ 3: งานการประมวลผลและข้อมูล Wrangler | บริการเว็บอเมซอน

โหนดต้นทาง: 1843425
ประทับเวลา: May 30, 2023