Nvidia ไม่ตัดเหรอ? ชิป AI ล่าสุดของ Google และ Amazon มาถึงแล้ว PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

Nvidia ไม่ตัดมันเหรอ? ชิป AI ล่าสุดของ Google และ Amazon มาแล้ว

การฝึกอบรม AI บนคลาวด์มีความหลากหลายมากขึ้นเล็กน้อยในสัปดาห์นี้ หลังจากที่ Amazon Web Services (AWS) และ Google Cloud ประกาศความพร้อมใช้งานทั่วไปของตัวเร่ง AI แบบกำหนดเองล่าสุด

เริ่มต้นด้วย Amazon แล้ว ชิป Trainium ของผู้ให้บริการระบบคลาวด์พร้อมให้ใช้งานโดยทั่วไปบน AWS แล้ว อันดับแรก แสดงตัวอย่าง ที่ AWS re:Invent เมื่อปีที่แล้ว อินสแตนซ์ Trn1n ที่ขับเคลื่อนโดย Trainium ของ Amazon ได้รับการออกแบบมาเพื่อฝึกโมเดลแมชชีนเลิร์นนิงขนาดใหญ่ เช่น ที่ใช้ในการประมวลผลภาษาธรรมชาติและการจดจำภาพ

Amazon อ้างว่าอินสแตนซ์มีประสิทธิภาพมากกว่า 40 เปอร์เซ็นต์ถึง 250 เปอร์เซ็นต์ในเวิร์กโหลด BF16 และ 32 บิต TensorFlow เมื่อเทียบกับอินสแตนซ์ P100d ที่ขับเคลื่อนด้วย Nvidia A4 ตามเกณฑ์มาตรฐานภายในของ Amazon คันเร่งยังรองรับ FP32, FP16, UINT8 และประเภทข้อมูล FP8 ที่กำหนดค่าได้ FP8 มี กลายเป็นที่นิยม ในโลกของ AI ในช่วงไม่กี่ปีที่ผ่านมาเพื่อแลกกับความถูกต้องของผลการปฏิบัติงาน

อินสแตนซ์มีให้เลือกสองขนาด: trn1.2xlarge ของ Amazon จับคู่ vCPU แปดตัวด้วยชิป Trainium ตัวเดียว หน่วยความจำ 64GB ที่แบ่งเท่าๆ กันระหว่าง CPU และตัวเร่งความเร็ว เครือข่าย 12.5Gbit/วินาที และที่เก็บข้อมูล SSD ในเครื่อง 500GB ในขณะเดียวกัน สำหรับเวิร์กโหลดที่ใหญ่ขึ้น trn1.32xlarge มีขนาดใหญ่กว่า 16 เท่า โดยบรรจุ 128 vCPU, 16 ชิป Trainium, หน่วยความจำรวม 1TB และแบนด์วิดท์เครือข่าย 800Gbit/วินาทีต่ออินสแตนซ์

สำหรับการฝึกโมเดลขนาดใหญ่ อินสแตนซ์ trn1.32xlarge หลายตัวสามารถจัดคลัสเตอร์ได้โดยใช้บริการพื้นที่จัดเก็บ FSx Luster ของ Amazon และสวิตช์ระดับบนสุดที่ไม่บล็อก "ระดับ petabit"

ตัวเร่งความเร็วใช้ Neuron SDK เดียวกันกับชิปอนุมาน Inferentia ที่ Amazon ประกาศก่อนหน้านี้ ซึ่งมาพร้อมกับคอมไพเลอร์ ส่วนขยายเฟรมเวิร์ก ไลบรารีรันไทม์ และเครื่องมือสำหรับนักพัฒนา เมื่อรวมกันแล้ว Amazon อ้างว่าปริมาณงานที่เขียนในเฟรมเวิร์ก ML ยอดนิยม เช่น PyTorch และ TensorFlow สามารถปรับให้ทำงานบน Trainium ได้โดยมีการปรับโครงสร้างใหม่เพียงเล็กน้อย

อินสแตนซ์ Trn1n พร้อมให้ใช้งานในสัปดาห์นี้ในภูมิภาคสหรัฐอเมริกาฝั่งตะวันออกของสหรัฐฯ และสหรัฐอเมริกาฝั่งตะวันตกของ Amazon

TPU v4 ของ Google วางจำหน่ายโดยทั่วไปแล้ว

Google ยังได้เปิดตัวชุดการอัปเดตฮาร์ดแวร์ที่งาน Cloud Next ในสัปดาห์นี้ รวมถึง พร้อมทั่วไป ของหน่วยประมวลผลเทนเซอร์รุ่นที่สี่ (TPU)

เครื่องเสมือนที่ขับเคลื่อนด้วย TPU v4 ของ Google Cloud มีให้ในการกำหนดค่าตั้งแต่สี่ชิป — โมดูล TPU เดียว — ไปจนถึงพ็อดที่อัดแน่นไปด้วยชิปมากถึง 4,096 ชิปที่เชื่อมต่อกันผ่านแฟบริกความเร็วสูง

สำหรับผู้ที่ไม่คุ้นเคย ตัวเร่งความเร็ว TPU ของ Google ได้รับการออกแบบมาโดยเฉพาะเพื่อเพิ่มความเร็วในโมเดลการเรียนรู้ของเครื่องขนาดใหญ่ของฮาร์ดแวร์ เช่น ที่ใช้ในการประมวลผลภาษาธรรมชาติ ระบบแนะนำ และคอมพิวเตอร์วิทัศน์

ในระดับสูง ตัวเร่งความเร็วนั้นเป็นเอ็นจิ้นคณิตศาสตร์เมทริกซ์ bfloat ขนาดใหญ่ที่เรียกว่า MXU ซึ่งรองรับโดยหน่วยความจำแบนด์วิดท์สูงและคอร์ CPU สองสามตัวเพื่อให้ตั้งโปรแกรมได้ คอร์ของ CPU ได้รับคำสั่งให้ป้อนการดำเนินการทางคณิตศาสตร์ AI ของเวิร์กโหลดลงใน MXU สำหรับการประมวลผลความเร็วสูง TPU VM แต่ละตัวประกอบด้วยชิปสี่ตัว โดยแต่ละตัวมีแกนประมวลผลสองคอร์ และหน่วยความจำทั้งหมด 128GB

สำหรับรายละเอียดทั้งหมดของสถาปัตยกรรม TPU ล่าสุดของ Google เราขอแนะนำ ตรวจสอบของเรา ไซต์น้องสาว แพลตฟอร์มถัดไป.

ตัวเร่งความเร็วแบบกำหนดเองได้รับการออกแบบมาเพื่อเพิ่มความเร็วให้กับปริมาณงาน AI ของ Google แต่ภายหลังเปิดให้ลูกค้าใช้ GCP อย่างที่คุณคาดหวัง TPU รองรับเฟรมเวิร์ก ML ยอดนิยมมากมาย รวมถึง JAX, PyTorch และ TensorFlow และจากข้อมูลของ Google TPU v4 นั้นเร็วกว่ารุ่นก่อนถึงสองเท่า ในขณะที่ยังให้ประสิทธิภาพต่อดอลลาร์สูงขึ้น 40%

ชิ้นส่วน TPU v4 Pod มีจำหน่ายแล้วในภูมิภาคโอคลาโฮมาของ GCP ในอัตราระหว่าง $0.97 ถึง $3.22 ต่อชิปต่อชั่วโมง สำหรับอินสแตนซ์ที่เล็กที่สุดของ Google นั้นมีค่าใช้จ่าย 5,924 ดอลลาร์ต่อเดือนโดยมีข้อผูกมัดหนึ่งปี

Google นำเสนอซีพียูรุ่นต่อไปของ Intel, smartNICs

ซีพียู Sapphire Rapids ของ Intel และ Mount Evans IPUs ได้ปรากฏตัวใน Google Cloud เป็นตัวอย่างส่วนตัวในสัปดาห์นี้

ลูกค้าบางรายสามารถให้ Intel's ล่าช้านาน Sapphire Rapids CPUs หมุน แต่การประกาศในวันนี้มีคำแนะนำเล็กน้อยเกี่ยวกับสิ่งที่เราคาดหวังจากไมโครโปรเซสเซอร์ แต่กลับกลายเป็นว่าบริษัทเล่น Mount Evans IPUs ที่พัฒนาร่วมกับ Intel

“เป็นครั้งแรกในประเภทเดียวกันในคลาวด์สาธารณะใดๆ C3 VM จะรันเวิร์กโหลดบนโปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 4 ในขณะที่เพิ่มพื้นที่การประมวลผลแพ็กเก็ตที่ตั้งโปรแกรมได้ไปยัง IPU ได้อย่างปลอดภัยที่อัตราบรรทัดที่ 200Gbit/วินาที” Nick McKeown ผู้นำเครือข่าย Intel และ edge group กล่าวใน a คำสั่ง.

ประกาศในงานสถาปัตยกรรมของ Intel เมื่อปีที่แล้ว Mount Evans ซึ่งปัจจุบันเปลี่ยนชื่อเป็น E2000 เป็น IPU ASIC ตัวแรกของ Intel IPU เป็นหน่วยประมวลผลโครงสร้างพื้นฐาน โดยพื้นฐานแล้วคือตัวเร่งฮาร์ดแวร์อื่นสำหรับงานเครือข่ายและการจัดเก็บ

ชิประดับ smartNIC จะใช้เพื่อเพิ่มความเร็วเวิร์กโหลดโครงสร้างพื้นฐานระบบคลาวด์ของ Google หนึ่งในกลุ่มแรกจะเป็นการจัดเก็บ ผู้ให้บริการระบบคลาวด์อ้างว่าอินสแตนซ์ C3 ที่เสริมด้วย IPU ให้ IOPS ที่สูงกว่า 10 เท่าและปริมาณงานของอินสแตนซ์ C4 ขาออก 2 เท่าเมื่อใช้ ประกาศเมื่อเร็ว ๆ บริการไฮเปอร์ดิสก์

IPU, หน่วยประมวลผลข้อมูล และ SmartNIC แทบจะไม่ใช่ปรากฏการณ์ใหม่ในโลกคลาวด์ นอกจากนี้ Amazon, Microsoft Azure และ Alibaba Cloud ยังใช้ SmartNIC เพื่อลดภาระงานโครงสร้างพื้นฐาน เช่น เครือข่าย ที่เก็บข้อมูล และความปลอดภัยจากโฮสต์ ทำให้รอบ CPU ว่างสำหรับการใช้งานโดยปริมาณงานของผู้เช่าในกระบวนการ

Sapphire Rapids ของ Intel ยังคงติดอยู่ในคลาวด์

แม้จะล้อเลียนอินสแตนซ์ C3 ว่าเป็น "VM แรกในระบบคลาวด์สาธารณะ" ที่ขับเคลื่อนโดย Sapphire Rapids แต่คำว่า "สาธารณะ" อาจเป็นคำที่ผิด อินสแตนซ์ C3 ของ Google ยังคงจำกัดเฉพาะลูกค้าที่เลือกตามแอปพลิเคชัน สันนิษฐานว่าอยู่ภายใต้ NDA ที่เข้มงวด

ในสัปดาห์นี้ Intel ยังไม่ได้ประกาศวันเปิดตัวสำหรับตระกูลโปรเซสเซอร์ Sapphire Rapids ซึ่งล่าช้ากว่ากำหนดหนึ่งปีแล้ว อย่างไรก็ตาม ด้วยการเปิดตัวโปรเซสเซอร์ Epyc เจนเนอเรชั่นที่สี่ของ AMD ซึ่งกำหนดไว้สำหรับฤดูใบไม้ร่วงนี้ Intel ดูเหมือนจะกระตือรือร้นมากขึ้นกว่าเดิมที่จะได้รับชิปดาต้าเซ็นเตอร์รุ่นต่อไปในมือของลูกค้าบางราย – อย่างน้อยก็แทบจะในความจริง

Google เป็นเพียงพันธมิตรล่าสุดของ Intel ในการจัดหาทรัพยากรที่ใช้ Sapphire Rapids ให้กับลูกค้าในบางพื้นที่ ในขณะที่ Google กำลังเสนอ VM บนคลาวด์ ซูเปอร์ไมโคร และ Intel ต่างก็เสนอการเข้าถึงระบบ Bare-Metal จากระยะไกลเพื่อให้ลูกค้ามีโอกาสได้สำรวจความสามารถใหม่ๆ ที่เปิดใช้งานโดยชิป

Intel ได้เริ่มจัดส่งโปรเซสเซอร์ Xeon Scalable เจนเนอเรชั่นที่ 86 ที่ขับเคลื่อนโดย Sapphire-Rapids ให้กับ OEM บางราย, คลาวด์ pals และหน่วยงานรัฐบาล อย่างไรก็ตาม ยังไม่ชัดเจนว่า xXNUMX titan สามารถจัดการชิปได้มากเพียงใดให้กับลูกค้า ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน