GPU ไม่ใช่ทางออกที่ดีที่สุดเสมอไป การทดสอบ Twitter ML แนะนำให้ PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

GPU ไม่ใช่ทางออกที่ดีที่สุดเสมอไป การทดสอบ Twitter ML แนะนำ

GPU เป็นเครื่องมือที่ทรงพลังสำหรับเวิร์กโหลดการเรียนรู้ด้วยเครื่อง แม้ว่าไม่จำเป็นต้องเป็นเครื่องมือที่เหมาะสมสำหรับงาน AI ทุกงานก็ตาม Michael Bronstein หัวหน้าฝ่ายวิจัยการเรียนรู้กราฟของ Twitter กล่าว

เมื่อเร็วๆ นี้ ทีมงานของเขาได้แสดงให้เห็นว่าฮาร์ดแวร์ AI ของ Graphcore เสนอ "ลำดับความสำคัญของการเร่งความเร็วเมื่อเปรียบเทียบโปรเซสเซอร์ IPU ตัวเดียวกับ GPU Nvidia A100" ในโมเดลเครือข่ายกราฟชั่วคราว (TGN)

"การเลือกฮาร์ดแวร์สำหรับการนำโมเดล Graph ML ไปใช้เป็นปัญหาสำคัญแต่มักถูกมองข้าม" a . กล่าว บทความร่วมกัน เขียนโดย Bronstein กับ Emanuele Rossi นักวิจัย ML ที่ Twitter และ Daniel Justus นักวิจัยที่ Graphcore

โครงข่ายกราฟนิวรัลเสนอวิธีการค้นหาลำดับในระบบที่ซับซ้อน และมักใช้ในเครือข่ายสังคมออนไลน์และระบบผู้แนะนำ อย่างไรก็ตาม ลักษณะแบบไดนามิกของสภาพแวดล้อมเหล่านี้ทำให้โมเดลเหล่านี้มีความท้าทายเป็นพิเศษในการฝึก ทั้งสามอธิบาย

กลุ่มนี้ตรวจสอบความสามารถในการทำงานของ IPU ของ Graphcore ในการจัดการโมเดล TGN หลายรุ่น การทดสอบเบื้องต้นดำเนินการกับโมเดล TGN ขนาดเล็กโดยอ้างอิงจาก โจดี้ ชุดข้อมูล Wikipedia ที่เชื่อมโยงผู้ใช้กับการแก้ไขที่ทำกับเพจ กราฟประกอบด้วยผู้ใช้ 8,227 ราย และบทความ 1,000 บทความ รวมเป็น 9,227 โหนด JODIE เป็นระบบการทำนายโอเพนซอร์สที่ออกแบบมาเพื่อให้เข้าใจถึงเครือข่ายปฏิสัมพันธ์ชั่วคราว

การทดลองของทั้งสามคนเปิดเผยว่าขนาดแบทช์ขนาดใหญ่ส่งผลให้การตรวจสอบความถูกต้องและความแม่นยำในการอนุมานลดลง เมื่อเทียบกับขนาดแบทช์ที่เล็กกว่า

"ทั้งหน่วยความจำของโหนดและการเชื่อมต่อของกราฟจะได้รับการอัปเดตหลังจากประมวลผลแบตช์ทั้งหมดแล้วเท่านั้น" ทั้งสามคนเขียน “ดังนั้น เหตุการณ์ภายหลังภายในชุดเดียวอาจใช้ข้อมูลที่ล้าสมัยเนื่องจากไม่ทราบเหตุการณ์ก่อนหน้า”

อย่างไรก็ตาม ด้วยการใช้ขนาดแบทช์ที่ 10 กลุ่มสามารถบรรลุการตรวจสอบความถูกต้องและการอนุมานได้อย่างเหมาะสมที่สุด แต่พวกเขาสังเกตเห็นว่าประสิทธิภาพบน IPU ยังคงเหนือกว่าของ GPU แม้ว่าจะใช้แบทช์ขนาดใหญ่ก็ตาม

“เมื่อใช้ด้านแบตช์ 10, TGN สามารถฝึกบน IPU ได้เร็วขึ้น 11 เท่า และถึงแม้จะมีขนาดแบทช์ใหญ่ถึง 200 ก็ตาม การฝึกบน IPU ก็ยังเร็วขึ้นสามเท่า” โพสต์ระบุ “ตลอดการดำเนินงานทั้งหมด IPU สามารถจัดการขนาดแบทช์ขนาดเล็กได้อย่างมีประสิทธิภาพมากขึ้น”

ทีมงานวางตัวว่าการเข้าถึงหน่วยความจำที่รวดเร็วและปริมาณงานสูงที่เสนอโดยแคช SRAM ในตัวประมวลผลขนาดใหญ่ของ Graphcore ทำให้ IPU ได้เปรียบ

ประสิทธิภาพการทำงานนี้ยังขยายไปถึงโมเดลกราฟที่เกินหน่วยความจำในโปรเซสเซอร์ของ IPU — IPU แต่ละตัวมีแคช SRAM ขนาด 1GB — ต้องใช้หน่วยความจำ DRAM ที่ช้ากว่าที่ต่อกับชิป

ทีมของ Bronstein พบว่าในการทดสอบแบบจำลองกราฟที่มีผู้ติดตาม 261 ล้านคนระหว่างผู้ใช้ Twitter 15.5 ล้านคน การใช้ DRAM สำหรับหน่วยความจำของโหนดนั้นลดปริมาณการรับส่งข้อมูลลงได้เพียง XNUMX เท่า

อย่างไรก็ตาม เมื่อสร้างกราฟย่อยหลายๆ กราฟโดยใช้ชุดข้อมูลสังเคราะห์ที่มีขนาดเป็น 10 เท่าของกราฟ Twitter ทีมงานพบว่าปริมาณงานได้รับการปรับขนาดโดยไม่ขึ้นกับขนาดกราฟ กล่าวอีกนัยหนึ่ง ประสิทธิภาพที่กระทบเป็นผลมาจากการใช้หน่วยความจำที่ช้าลง ไม่ใช่ผลของขนาดของโมเดล

“การใช้เทคนิคนี้บน IPU ทำให้ TGN สามารถนำไปใช้กับขนาดกราฟได้แทบทุกขนาด โดยถูกจำกัดด้วยจำนวนหน่วยความจำโฮสต์ที่มีอยู่ ในขณะที่ยังคงอัตราการส่งข้อมูลที่สูงมากระหว่างการฝึกและการอนุมาน” บทความกล่าว

ทีมงานสรุปว่าสถาปัตยกรรม IPU ของ Graphcore แสดงให้เห็นถึงข้อได้เปรียบเหนือ GPU ในเวิร์กโหลดที่การประมวลผลและการเข้าถึงหน่วยความจำต่างกัน

อย่างไรก็ตาม ประเด็นที่กว้างกว่านั้นก็คือ นักวิจัย ML ควรพิจารณาการเลือกฮาร์ดแวร์อย่างรอบคอบ และไม่ควรใช้ GPU เริ่มต้นโดยปริยาย

"ความพร้อมใช้งานของบริการคลาวด์คอมพิวติ้งที่แยกส่วนฮาร์ดแวร์พื้นฐานออกมาทำให้เกิดความเกียจคร้านในเรื่องนี้" ทั้งสามคนเขียน “เราหวังว่าการศึกษาของเราจะดึงความสนใจไปที่หัวข้อที่สำคัญนี้มากขึ้นและปูทางสำหรับอัลกอริธึมและสถาปัตยกรรมฮาร์ดแวร์ในอนาคตที่มีประสิทธิภาพมากขึ้นสำหรับแอปพลิเคชัน Graph ML” ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน