ByteDance ประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ByteDance ช่วยประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia

นี่คือบล็อกโพสต์ของแขกที่เขียนร่วมกับ Minghui Yu และ Jianzhe Xiao จาก Bytedance

ByteDance เป็นบริษัทเทคโนโลยีที่ดำเนินการแพลตฟอร์มเนื้อหาที่หลากหลายเพื่อให้ข้อมูล ให้ความรู้ ความบันเทิง และสร้างแรงบันดาลใจแก่ผู้คนในภาษา วัฒนธรรม และภูมิศาสตร์ต่างๆ ผู้ใช้ไว้วางใจและเพลิดเพลินกับแพลตฟอร์มเนื้อหาของเราเนื่องจากประสบการณ์ที่สมบูรณ์ ใช้งานง่าย และปลอดภัยที่มอบให้ ประสบการณ์เหล่านี้เกิดขึ้นได้ด้วยกลไกแบ็กเอนด์แมชชีนเลิร์นนิง (ML) ของเรา โดยมีโมเดล ML ที่สร้างขึ้นสำหรับการควบคุมเนื้อหา การค้นหา คำแนะนำ การโฆษณา และเอฟเฟ็กต์ภาพใหม่ๆ

ทีม ByteDance AML (Applied Machine Learning) ให้บริการระบบ ML ที่มีประสิทธิภาพสูง เชื่อถือได้ และปรับขนาดได้ และบริการ ML แบบ end-to-end สำหรับธุรกิจของบริษัท เรากำลังค้นคว้าวิธีเพิ่มประสิทธิภาพระบบการอนุมาน ML ของเราเพื่อลดต้นทุนโดยไม่ต้องเพิ่มเวลาตอบสนอง เมื่อเปิดตัว AWS การอนุมาน AWSซึ่งเป็นชิปการอนุมาน ML ประสิทธิภาพสูงที่สร้างขึ้นโดย AWS โดยมีวัตถุประสงค์ เราทำงานร่วมกับทีมบัญชี AWS เพื่อทดสอบว่า AWS Inferentia สามารถบรรลุเป้าหมายการเพิ่มประสิทธิภาพของเราได้หรือไม่ เราดำเนินการพิสูจน์แนวคิดหลายประการ ส่งผลให้ต้นทุนการอนุมานลดลงถึง 60% เมื่อเทียบกับอินสแตนซ์ EC4 G2dn ที่ใช้ GPU T4 และลดเวลาแฝงในการอนุมานสูงสุด 25% เพื่อตระหนักถึงการประหยัดต้นทุนและการปรับปรุงประสิทธิภาพ เราตัดสินใจปรับใช้โมเดลบน AWS Inferentia อเมซอน อีลาสติก คอมพิวท์ คลาวด์ (Amazon EC2) อินสแตนซ์ Inf1 ในการผลิต

แผนภูมิต่อไปนี้แสดงการปรับปรุงเวลาแฝงสำหรับหนึ่งในโมเดลการตรวจจับใบหน้าของเราซึ่งเคยใช้งานบน GPU ด้วย Tensor RT ก่อนหน้านี้ เวลาแฝงเฉลี่ยลดลง 20% (จาก 50 มิลลิวินาทีเป็น 40 มิลลิวินาที) และเวลาแฝงของ p99 ลดลง 25% (จาก 200 มิลลิวินาทีเป็น 150 มิลลิวินาที)

ในโพสต์นี้ เราจะแบ่งปันวิธีที่เราประหยัดค่าใช้จ่ายในการอนุมานในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia

ในการค้นหาคอมพิวเตอร์ประสิทธิภาพสูงและคุ้มค่า

ทีมงาน ByteDance AML มุ่งเน้นไปที่การวิจัยและการใช้งานระบบ ML ที่ล้ำสมัยและทรัพยากรการประมวลผลที่แตกต่างกันที่พวกเขาต้องการ เราสร้างระบบการฝึกอบรมและการอนุมานขนาดใหญ่สำหรับโมเดลผู้แนะนำ การประมวลผลภาษาธรรมชาติ (NLP) และคอมพิวเตอร์วิทัศน์ (CV) ที่หลากหลาย โมเดลเหล่านี้มีความซับซ้อนสูงและประมวลผลข้อมูลจำนวนมหาศาลจากแพลตฟอร์มเนื้อหามากมายที่ ByteDance ดำเนินการ การปรับใช้โมเดลเหล่านี้ต้องใช้ทรัพยากร GPU จำนวนมาก ไม่ว่าจะในระบบคลาวด์หรือภายในองค์กร ดังนั้นค่าใช้จ่ายในการคำนวณสำหรับระบบการอนุมานเหล่านี้จึงค่อนข้างสูง

เราต้องการลดต้นทุนเหล่านี้โดยไม่ส่งผลกระทบต่อปริมาณงานหรือเวลาแฝง เราต้องการความยืดหยุ่นของระบบคลาวด์และรอบการจัดส่งที่เร็วขึ้น ซึ่งสั้นกว่าที่จำเป็นสำหรับการตั้งค่าภายในองค์กรมาก และแม้ว่าเราจะเปิดให้สำรวจตัวเลือกใหม่ๆ สำหรับ ML แบบเร่ง เราก็ต้องการประสบการณ์นักพัฒนาที่ราบรื่นเช่นกัน

เราได้เรียนรู้จากทีม AWS ของเราว่าอินสแตนซ์ EC2 Inf1 ที่ใช้ AWS Inferentia มอบการอนุมาน ML ประสิทธิภาพสูงด้วยต้นทุนต่อการอนุมานที่ต่ำที่สุดในระบบคลาวด์ เราอยากรู้อยากเห็นและพบว่าเหมาะกับกรณีการใช้งานของเรามาก เนื่องจากเราใช้แมชชีนเลิร์นนิงจำนวนมากกับข้อมูลรูปภาพ วัตถุ คำพูด และข้อความจำนวนมาก สิ่งเหล่านี้เหมาะสมอย่างยิ่งสำหรับเป้าหมายของเรา เนื่องจากเราประหยัดต้นทุนได้มหาศาลเนื่องจากความซับซ้อนของแบบจำลองและปริมาณการคาดการณ์รายวัน นอกจากนี้ AWS Inferentia ยังมีหน่วยความจำบนชิปจำนวนมาก ซึ่งคุณสามารถใช้สำหรับแคชโมเดลขนาดใหญ่แทนการจัดเก็บออกจากชิป เราทราบดีว่าสิ่งนี้สามารถมีผลกระทบอย่างมากในการลดเวลาแฝงในการอนุมาน เนื่องจากแกนประมวลผลของ AWS Inferentia ที่เรียกว่า NeuronCores มีการเข้าถึงความเร็วสูงไปยังโมเดลที่จัดเก็บไว้ในหน่วยความจำบนชิปและไม่ถูกจำกัดโดยหน่วยความจำนอกชิป แบนด์วิธ

ในที่สุด หลังจากประเมินตัวเลือกต่างๆ เราเลือกอินสแตนซ์ EC2 Inf1 สำหรับอัตราส่วนประสิทธิภาพ/ราคาที่ดีกว่า เมื่อเทียบกับอินสแตนซ์ G4dn และ NVIDIA T4 ภายในองค์กร เรามีส่วนร่วมในวงจรของการวนซ้ำอย่างต่อเนื่องกับทีม AWS เพื่อปลดล็อกประโยชน์ด้านราคาและประสิทธิภาพของ Inf1

การปรับใช้ปริมาณงานการอนุมานบน AWS Inferentia

การเริ่มต้นใช้งาน AWS Inferentia โดยใช้ AWS Neuron SDK เกี่ยวข้องกับสองขั้นตอน: การคอมไพล์รหัสโมเดลและการปรับใช้บนอินสแตนซ์ Inf1 เป็นเรื่องปกติเมื่อย้ายโมเดล ML ไปยังโครงสร้างพื้นฐานใหม่ มีความท้าทายบางอย่างที่เราเผชิญ เราสามารถเอาชนะความท้าทายเหล่านี้ด้วยความขยันหมั่นเพียรและการสนับสนุนจากทีมงาน AWS ของเรา ในส่วนต่อไปนี้ เราจะแชร์เคล็ดลับและข้อสังเกตที่เป็นประโยชน์หลายประการ โดยอิงตามประสบการณ์ของเราในการปรับใช้ปริมาณงานการอนุมานบน AWS Inferentia

โมเดลคอนฟอร์เมอร์สำหรับ OCR

โมเดลที่สอดคล้องกับการรู้จำอักขระด้วยแสง (OCR) ของเราจะตรวจจับและอ่านข้อความภายในรูปภาพ เราทำการเพิ่มประสิทธิภาพหลายอย่างเพื่อให้ได้ประสิทธิภาพสูง (QPS) สำหรับขนาดแบตช์ที่หลากหลาย ในขณะที่รักษาเวลาแฝงให้ต่ำ การเพิ่มประสิทธิภาพที่สำคัญบางอย่างระบุไว้ด้านล่าง:

  • การเพิ่มประสิทธิภาพคอมไพเลอร์ – ตามค่าเริ่มต้น Inferentia ทำงานได้ดีที่สุดกับอินพุตที่มีความยาวลำดับคงที่ ซึ่งทำให้เกิดความท้าทายเนื่องจากความยาวของข้อมูลที่เป็นข้อความไม่คงที่ เพื่อเอาชนะสิ่งนี้ เราแบ่งโมเดลของเราออกเป็นสองส่วน: ตัวเข้ารหัสและตัวถอดรหัส เรารวบรวมโมเดลย่อยทั้งสองนี้แยกกันแล้วรวมเป็นโมเดลเดียวผ่าน TorchScript โดยการเรียกใช้โฟลว์การควบคุมลูปบน CPU วิธีการนี้เปิดใช้งานการสนับสนุนสำหรับความยาวลำดับตัวแปรบน Inferentia
  • ประสิทธิภาพการบิดเชิงลึก – เราพบปัญหาคอขวดของ DMA ในการดำเนินการบิดเชิงลึก ซึ่งโมเดลคอนฟอร์เมอร์ของเราใช้อย่างหนัก เราทำงานอย่างใกล้ชิดกับทีม AWS Neuron เพื่อระบุและแก้ไขปัญหาคอขวดของประสิทธิภาพการเข้าถึง DMA ซึ่งปรับปรุงประสิทธิภาพของการดำเนินการนี้และปรับปรุงประสิทธิภาพโดยรวมของโมเดล OCR ของเรา

ByteDance ประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

เราได้สร้างแบบจำลองใหม่สองแบบเพื่อเพิ่มประสิทธิภาพการปรับใช้ของเราบน Inferentia:

  • ตัวเข้ารหัส/ตัวถอดรหัสแบบรวมและแบบไม่ม้วน – แทนที่จะใช้ตัวเข้ารหัสและตัวถอดรหัสที่คอมไพล์อย่างอิสระ เราได้รวมตัวเข้ารหัสและตัวถอดรหัสที่คลายออกอย่างสมบูรณ์เป็นโมเดลเดียวและรวบรวมโมเดลนี้เป็น NEFF เดียว การคลายตัวถอดรหัสทำให้สามารถเรียกใช้โฟลว์การควบคุมตัวถอดรหัสทั้งหมดบน Inferentia โดยไม่ต้องใช้การทำงานของ CPU ใดๆ ด้วยวิธีการนี้ การวนซ้ำของตัวถอดรหัสแต่ละครั้งจะใช้จำนวนการประมวลผลที่จำเป็นสำหรับโทเค็นนั้นพอดี แนวทางนี้ช่วยปรับปรุงประสิทธิภาพเนื่องจากเราลดการคำนวณส่วนเกินที่เคยนำมาใช้โดยการเติมข้อมูลเข้าลงอย่างมาก นอกจากนี้ ไม่จำเป็นต้องถ่ายโอนข้อมูลจาก Inferentia ไปยัง CPU ระหว่างการทำซ้ำของตัวถอดรหัส ซึ่งช่วยลดเวลา I/O ได้อย่างมาก รุ่นของรุ่นนี้ไม่รองรับการหยุดก่อนกำหนด
  • ตัวถอดรหัสที่ไม่ได้แบ่งพาร์ติชัน – คล้ายกับโมเดลที่คลายการรวมทั้งหมด ตัวแปรของโมเดลนี้จะคลายการวนซ้ำหลายครั้งของตัวถอดรหัสและคอมไพล์เป็นการดำเนินการเดียว (แต่ไม่รวมตัวเข้ารหัส) ตัวอย่างเช่น สำหรับลำดับความยาวสูงสุดที่ 75 เราสามารถคลายตัวถอดรหัสออกเป็น 3 พาร์ติชันซึ่งคำนวณโทเค็น 1-25, 26-50 และ 51-75 ในแง่ของ I/O นี่ยังเร็วกว่ามากเพราะเราไม่จำเป็นต้องถ่ายโอนเอาต์พุตตัวเข้ารหัสหนึ่งครั้งต่อการวนซ้ำทุกครั้ง เอาต์พุตจะถูกถ่ายโอนเพียงครั้งเดียวต่อพาร์ติชันตัวถอดรหัสแต่ละตัวเท่านั้น รุ่นของรุ่นนี้รองรับการหยุดก่อนกำหนด แต่เฉพาะที่ขอบเขตของพาร์ติชันเท่านั้น ขอบเขตของพาร์ติชันสามารถปรับได้สำหรับแต่ละแอ็พพลิเคชันเฉพาะ เพื่อให้แน่ใจว่าคำขอส่วนใหญ่ดำเนินการเพียงพาร์ติชันเดียว

เพื่อปรับปรุงประสิทธิภาพให้ดียิ่งขึ้น เราได้ทำการเพิ่มประสิทธิภาพต่อไปนี้เพื่อลดการใช้หน่วยความจำหรือปรับปรุงประสิทธิภาพการเข้าถึง:

  • การขจัดความซ้ำซ้อนของเทนเซอร์และสำเนาที่ลดลง – นี่คือการเพิ่มประสิทธิภาพคอมไพเลอร์ที่ลดขนาดของโมเดลที่ไม่ได้ควบคุมและจำนวนการเข้าถึงคำสั่ง/หน่วยความจำลงอย่างมาก โดยการใช้เทนเซอร์ซ้ำเพื่อปรับปรุงประสิทธิภาพของพื้นที่
  • คำแนะนำที่ลดลง – นี่คือการเพิ่มประสิทธิภาพคอมไพเลอร์ที่ใช้กับตัวถอดรหัสเวอร์ชันที่ไม่มีแพดเพื่อลดจำนวนคำสั่งทั้งหมดลงอย่างมาก
  • การขจัดข้อมูลซ้ำซ้อนแบบมัลติคอร์ – นี่คือการเพิ่มประสิทธิภาพรันไทม์ซึ่งเป็นทางเลือกแทนการขจัดความซ้ำซ้อนของเทนเซอร์ ด้วยตัวเลือกนี้ มัลติคอร์ทุกรุ่นจะประหยัดพื้นที่มากขึ้นอย่างเห็นได้ชัด

โมเดล ResNet50 สำหรับการจำแนกภาพ

ResNet-50 เป็นโมเดลการเรียนรู้เชิงลึกที่ได้รับการฝึกฝนมาล่วงหน้าสำหรับการจำแนกรูปภาพ เป็น Convolutional Neural Network (CNN หรือ ConvNet) ที่ใช้กันมากที่สุดในการวิเคราะห์ภาพที่มองเห็น เราใช้เทคนิคต่อไปนี้เพื่อปรับปรุงประสิทธิภาพของโมเดลนี้บน Inferentia:

  • การแปลงแบบจำลอง – หลายโมเดลของ ByteDance ส่งออกในรูปแบบ ONNX ซึ่งปัจจุบัน Inferentia ไม่รองรับ เพื่อจัดการกับโมเดล ONNX เหล่านี้ ทีม AWS Neuron ได้จัดเตรียมสคริปต์เพื่อแปลงโมเดลของเราจากรูปแบบ ONNX เป็นโมเดล PyTorch ซึ่งสามารถรวบรวมได้โดยตรงสำหรับ Inferentia โดยใช้ torch-neuron
  • การเพิ่มประสิทธิภาพการปฏิบัติงาน – เราทำงานอย่างใกล้ชิดกับ AWS เซลล์ประสาท ทีมเพื่อปรับแต่งฮิวริสติกการจัดตารางเวลาในคอมไพเลอร์เพื่อเพิ่มประสิทธิภาพการทำงานของโมเดล ResNet-50 ของเรา

โมเดลหลายรูปแบบสำหรับการกลั่นกรองเนื้อหา

โมเดลการเรียนรู้เชิงลึกแบบหลายโมดอลของเราคือการรวมกันของโมเดลที่แยกจากกันหลายโมเดล ขนาดของโมเดลนี้ค่อนข้างใหญ่ ซึ่งทำให้การโหลดโมเดลล้มเหลวใน Inferentia ทีม AWS Neuron แก้ปัญหานี้ได้สำเร็จโดยใช้การแชร์น้ำหนักเพื่อลดการใช้หน่วยความจำของอุปกรณ์ ทีม Neuron ได้เปิดตัวฟีเจอร์การขจัดน้ำหนักซ้ำซ้อนในไลบรารี Neuron libnrt และปรับปรุงเครื่องมือ Neuron เพื่อให้ได้เมตริกที่แม่นยำยิ่งขึ้น คุณลักษณะการขจัดความซ้ำซ้อนของน้ำหนักรันไทม์สามารถเปิดใช้งานได้โดยการตั้งค่าตัวแปรสภาพแวดล้อมต่อไปนี้ก่อนที่จะรันการอนุมาน:

NEURON_RT_MULTI_INSTANCE_SHARED_WEIGHTS=1

Neuron SDK ที่อัปเดตลดการใช้หน่วยความจำโดยรวมของโมเดลที่ทำซ้ำของเรา ซึ่งทำให้เราสามารถปรับใช้โมเดลมัลติโมดอลของเราสำหรับการอนุมานแบบมัลติคอร์

การย้ายโมเดลเพิ่มเติมไปยัง AWS Inferentia

ที่ ByteDance เรายังคงปรับใช้โมเดลการเรียนรู้เชิงลึกที่เป็นนวัตกรรมใหม่เพื่อมอบประสบการณ์ผู้ใช้ที่น่าพึงพอใจแก่ผู้ใช้ที่ใช้งานอยู่เกือบ 2 พันล้านคนต่อเดือน ด้วยขนาดที่ใหญ่โตที่เราดำเนินการ เราจึงมองหาวิธีการประหยัดค่าใช้จ่ายและปรับปรุงประสิทธิภาพอย่างต่อเนื่อง เราจะย้ายโมเดลไปยัง AWS Inferentia ต่อไปเพื่อรับประโยชน์จากประสิทธิภาพสูงและความคุ้มค่า นอกจากนี้ เรายังต้องการให้ AWS เปิดตัวประเภทอินสแตนซ์ที่ใช้ AWS Inferentia มากขึ้น เช่น อินสแตนซ์ที่มี vCPU มากขึ้นสำหรับงานประมวลผลล่วงหน้า จากนี้ไป ByteDance หวังว่าจะได้เห็นนวัตกรรมซิลิกอนเพิ่มเติมจาก AWS เพื่อมอบประสิทธิภาพราคาที่ดีที่สุดสำหรับแอปพลิเคชัน ML

หากคุณสนใจที่จะเรียนรู้เพิ่มเติมว่า AWS Inferentia สามารถช่วยคุณประหยัดค่าใช้จ่ายในขณะที่เพิ่มประสิทธิภาพให้กับแอปพลิเคชันการอนุมานของคุณได้อย่างไร โปรดไปที่ อินสแตนซ์ Amazon EC2 Inf1 หน้าผลิตภัณฑ์


เกี่ยวกับผู้เขียน

ByteDance ประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.หมิงฮุ่ย หยู เป็นหัวหน้าทีม Machine Learning อาวุโสสำหรับการอนุมานที่ ByteDance พื้นที่ที่เขาสนใจคือ AI Computing Acceleration และระบบการเรียนรู้ของเครื่อง เขาสนใจคอมพิวเตอร์ที่แตกต่างกันและสถาปัตยกรรมคอมพิวเตอร์ในยุคหลังมัวร์ ในเวลาว่างเขาชอบบาสเก็ตบอลและยิงธนู

ByteDance ประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.เจียนเจ๋อเสี่ยว เป็นหัวหน้าทีมวิศวกรซอฟต์แวร์อาวุโสในทีม AML ที่ ByteDance งานปัจจุบันของเขามุ่งเน้นไปที่การช่วยทีมธุรกิจเร่งกระบวนการปรับใช้โมเดลและปรับปรุงประสิทธิภาพการอนุมานของโมเดล นอกเวลางานเขาชอบเล่นเปียโน

ByteDance ประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.เทียนซือ เป็นสถาปนิกโซลูชันอาวุโสที่ AWS พื้นที่ที่เขาสนใจคือการวิเคราะห์ข้อมูล การเรียนรู้ของเครื่อง และไร้เซิร์ฟเวอร์ เขามีความกระตือรือร้นในการช่วยลูกค้าออกแบบและสร้างโซลูชันที่เชื่อถือได้และปรับขนาดได้บนคลาวด์ ในเวลาว่าง เขาชอบว่ายน้ำและอ่านหนังสือ

ByteDance ประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.เจียตง เป็นผู้จัดการโซลูชันลูกค้าที่ AWS เธอชอบเรียนรู้เกี่ยวกับบริการ AWS AI/ML และช่วยให้ลูกค้าได้รับผลลัพธ์ทางธุรกิจด้วยการสร้างโซลูชันสำหรับพวกเขา นอกเวลางาน Jia ชอบท่องเที่ยว เล่นโยคะ และดูภาพยนตร์

ByteDance ประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.โจนาธาน ลันท์ เป็นวิศวกรซอฟต์แวร์ที่ Amazon โดยมุ่งเน้นที่การพัฒนาเฟรมเวิร์ก ML ในอาชีพของเขา เขาได้ทำงานผ่านบทบาทด้านวิทยาการข้อมูลอย่างเต็มรูปแบบ รวมถึงการพัฒนาแบบจำลอง การปรับใช้โครงสร้างพื้นฐาน และการเพิ่มประสิทธิภาพเฉพาะฮาร์ดแวร์

ByteDance ประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.โจชัว ฮันนาน เป็นวิศวกรแมชชีนเลิร์นนิงที่ Amazon เขาทำงานเกี่ยวกับการเพิ่มประสิทธิภาพโมเดลการเรียนรู้เชิงลึกสำหรับคอมพิวเตอร์วิทัศน์ขนาดใหญ่และแอปพลิเคชันการประมวลผลภาษาธรรมชาติ

ByteDance ประหยัดค่าใช้จ่ายในการอนุมานได้มากถึง 60% ในขณะที่ลดเวลาแฝงและเพิ่มปริมาณงานโดยใช้ AWS Inferentia PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.ชรูติ โคปาร์การ์ เป็นผู้จัดการอาวุโสฝ่ายการตลาดผลิตภัณฑ์ของ AWS เธอช่วยลูกค้าสำรวจ ประเมิน และปรับใช้โครงสร้างพื้นฐานการประมวลผลเร่ง EC2 สำหรับความต้องการแมชชีนเลิร์นนิง

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS