ด้วย AI คุณจะต้องมองเห็นภาพฮาร์ดแวร์และซอฟต์แวร์ที่ใหญ่ขึ้น PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

ด้วย AI คุณต้องเห็นภาพฮาร์ดแวร์และซอฟต์แวร์ที่ใหญ่ขึ้น

คุณสมบัติที่สนับสนุน เป็นเวลากว่าทศวรรษครึ่งแล้วที่นักวิจัยทำให้โลกเทคโนโลยีตื่นตาตื่นใจด้วยการแสดงให้เห็นว่าหน่วยประมวลผลกราฟิกสามารถใช้เพื่อเร่งการทำงานของ AI ที่สำคัญได้อย่างมาก

การตระหนักรู้นั้นยังคงดึงดูดจินตนาการขององค์กร IDC รายงานว่า เมื่อพูดถึงโครงสร้างพื้นฐาน การประมวลผลแบบเร่งด้วย GPU และ HPC เช่น การปรับขนาดเป็นหนึ่งในข้อพิจารณาอันดับต้น ๆ สำหรับผู้นำเทคโนโลยีและสถาปนิกที่ต้องการสร้างโครงสร้างพื้นฐาน AI ของตน

แต่สำหรับทุกองค์กรที่ประสบความสำเร็จในการใช้ AI กับปัญหาในโลกแห่งความเป็นจริง ยังมีอีกหลายองค์กรที่ต้องดิ้นรนเพื่อไปให้ไกลกว่าขั้นทดลองหรือขั้นนำร่อง การวิจัยปี 2021 ของ IDC พบว่าผู้ตอบแบบสอบถามน้อยกว่าหนึ่งในสามได้ย้ายโปรเจ็กต์ AI ไปสู่การผลิต และมีเพียงหนึ่งในสามจากทั้งหมดเท่านั้นที่เข้าสู่ “ขั้นตอนการผลิตเต็มที่”

อุปสรรคที่กล่าวถึง ได้แก่ ปัญหาเกี่ยวกับการประมวลผลและการเตรียมข้อมูล และการเสริมโครงสร้างพื้นฐานเพื่อรองรับ AI ในระดับองค์กร องค์กรต่างๆ จำเป็นต้องลงทุนใน "โครงสร้างพื้นฐานที่สร้างขึ้นตามวัตถุประสงค์และขนาดที่เหมาะสม" IDC กล่าว

ปัญหา AI ที่นี่คืออะไร

แล้วองค์กรเหล่านั้นจะผิดตรงไหนกับ AI? ปัจจัยหนึ่งอาจเป็นเพราะผู้นำเทคโนโลยีและผู้เชี่ยวชาญด้าน AI ล้มเหลวในการมองแบบองค์รวมของไปป์ไลน์ AI ที่กว้างขึ้น ในขณะที่ให้ความสนใจกับ GPU มากเกินไปเมื่อเทียบกับเครื่องมือคำนวณอื่นๆ โดยเฉพาะอย่างยิ่ง CPU ที่มีชื่อเสียง

เพราะท้ายที่สุดแล้ว มันไม่ใช่คำถามของการสำรอง CPU กับ GPU กับ ASIC แต่เป็นเรื่องของการหาวิธีที่เหมาะสมที่สุดในการสร้างไปป์ไลน์ AI ที่จะให้คุณได้ตั้งแต่แนวคิด ข้อมูล และการสร้างแบบจำลองไปจนถึงการปรับใช้และการอนุมาน และนั่นหมายถึงการชื่นชมความแข็งแกร่งตามลำดับของสถาปัตยกรรมโปรเซสเซอร์ที่แตกต่างกัน เพื่อให้คุณสามารถใช้เครื่องมือคำนวณที่เหมาะสมในเวลาที่เหมาะสม

ในฐานะผู้อำนวยการอาวุโสฝ่าย Datacenter AI Strategy and Execution Shardul Brahmbhatt อธิบายว่า “CPU ถูกนำมาใช้สำหรับไมโครเซอร์วิสและอินสแตนซ์การประมวลผลแบบดั้งเดิมในระบบคลาวด์ และมีการใช้ GPU สำหรับการประมวลผลแบบขนาน เช่น การสตรีมมีเดีย การเล่นเกม และสำหรับปริมาณงาน AI”

เมื่อไฮเปอร์สเกลเลอร์และผู้เล่นคลาวด์รายอื่นหันมาสนใจ AI ก็เป็นที่ชัดเจนว่าพวกเขาใช้ประโยชน์จากจุดแข็งเดียวกันนี้สำหรับงานที่แตกต่างกัน

ความสามารถของ GPU เกี่ยวกับการประมวลผลแบบขนานทำให้เหมาะอย่างยิ่งสำหรับการฝึกอบรมอัลกอริทึม AI เป็นต้น ในขณะเดียวกัน CPU มีความได้เปรียบเมื่อพูดถึงแบทช์ต่ำ การอนุมานตามเวลาจริงที่มีความหน่วงแฝงต่ำ และใช้อัลกอริทึมเหล่านั้นในการวิเคราะห์ข้อมูลสดและให้ผลลัพธ์และการคาดคะเน

อีกครั้ง มีข้อแม้ Brahmbhatt อธิบายว่า “มีสถานที่ที่คุณต้องการทำการอนุมานแบบกลุ่มมากขึ้น และการอนุมานแบบกลุ่มนั้นก็เป็นสิ่งที่ทำผ่าน GPU หรือ ASIC”

มองลงไปตามท่อ

แต่ไปป์ไลน์ของ AI ขยายออกไปนอกเหนือไปจากการฝึกอบรมและการอนุมาน ที่ด้านซ้ายของไปป์ไลน์ ข้อมูลจะต้องได้รับการประมวลผลล่วงหน้าและพัฒนาอัลกอริทึม CPU โดยทั่วไปมีบทบาทสำคัญในการเล่นที่นี่

ในความเป็นจริง GPU คิดเป็นสัดส่วนค่อนข้างน้อยของกิจกรรมโปรเซสเซอร์ทั้งหมดทั่วทั้งไปป์ไลน์ AI โดยปริมาณงาน "เวทีข้อมูล" ที่ขับเคลื่อนด้วย CPU คิดเป็นสองในสามโดยรวม ตามข้อมูลของ Intel (คุณสามารถอ่านบทสรุปเกี่ยวกับโซลูชันได้ - เพิ่มประสิทธิภาพการอนุมานด้วยเทคโนโลยี Intel CPU ที่นี่)

และ Brahmbhatt เตือนเราว่าสถาปัตยกรรม CPU มีข้อได้เปรียบอื่น ๆ รวมถึงความสามารถในการตั้งโปรแกรม

“เนื่องจาก CPU ถูกใช้อย่างแพร่หลาย จึงมีระบบนิเวศของนักพัฒนาซอฟต์แวร์และแอปพลิเคชันที่มีอยู่แล้ว รวมถึงเครื่องมือที่มอบความสะดวกในการใช้งานและความสามารถในการตั้งโปรแกรมสำหรับการคำนวณตามวัตถุประสงค์ทั่วไป” เขากล่าว

“ประการที่สอง CPU ช่วยให้เข้าถึงพื้นที่หน่วยความจำที่ใหญ่ขึ้นได้เร็วขึ้น และสิ่งที่สามคือการประมวลผลแบบไม่มีโครงสร้างมากกว่าเมื่อเทียบกับ GPU [ซึ่ง] เป็นการประมวลผลแบบขนานมากกว่า ด้วยเหตุผลเหล่านี้ CPU จึงทำงานเป็นตัวย้ายข้อมูลซึ่งป้อน GPU จึงช่วยในการสร้างแบบจำลองของระบบผู้แนะนำ ตลอดจนการพัฒนาปริมาณงาน เช่น Graph Neural Networks”

แผนเปิดสำหรับการพัฒนา AI

ดังนั้นเราควรดูบทบาทของ CPU และ GPU ตามลำดับอย่างไรเมื่อวางแผนไปป์ไลน์การพัฒนา AI ไม่ว่าจะเป็นในองค์กร ในระบบคลาวด์ หรือคร่อมทั้งสองอย่าง

GPU ปฏิวัติการพัฒนา AI เนื่องจากนำเสนอวิธีการเร่งความเร็วที่ลดภาระการทำงานจาก CPU แต่ก็ไม่เป็นไปตามที่ว่านี่เป็นตัวเลือกที่เหมาะสมที่สุดสำหรับงานที่กำหนด

Sharath Raghava สถาปนิกแพลตฟอร์มของ Intel อธิบายว่า “แอปพลิเคชัน AI มีการคำนวณแบบเวกเตอร์ การคำนวณแบบเวกเตอร์เป็นแบบขนาน ในการเรียกใช้ปริมาณงาน AI อย่างมีประสิทธิภาพ เราสามารถใช้ประโยชน์จากความสามารถของ CPU และ GPU โดยพิจารณาจากขนาดของการคำนวณแบบเวกเตอร์ เวลาแฝงของออฟโหลด ความสามารถในการทำงานแบบขนาน และปัจจัยอื่นๆ อีกมากมาย” แต่เขากล่าวต่อว่าสำหรับงานที่ "เล็กกว่า" "ต้นทุน" ของการถ่ายจะมากเกินไป และอาจไม่สมเหตุสมผลที่จะเรียกใช้บน GPU หรือตัวเร่งความเร็ว

ซีพียูยังสามารถได้รับประโยชน์จากการผสานรวมอย่างใกล้ชิดกับส่วนประกอบของระบบอื่นๆ ที่ช่วยให้ทำงาน AI ให้เสร็จได้รวดเร็วยิ่งขึ้น การได้รับคุณค่าสูงสุดจากการปรับใช้ AI นั้นเกี่ยวข้องมากกว่าการรันโมเดลเพียงอย่างเดียว ข้อมูลเชิงลึกที่ต้องการนั้นขึ้นอยู่กับการดำเนินการก่อนการประมวลผล การอนุมาน และการประมวลผลภายหลังที่มีประสิทธิภาพ การประมวลผลล่วงหน้าจำเป็นต้องเตรียมข้อมูลให้ตรงกับความคาดหวังอินพุตของโมเดลที่ผ่านการฝึกอบรมก่อนที่จะป้อนเพื่อสร้างการอนุมาน ข้อมูลที่เป็นประโยชน์จะถูกดึงออกมาจากผลการอนุมานในขั้นตอนหลังการประมวลผล

ตัวอย่างเช่น หากเรานึกถึงระบบตรวจจับการบุกรุกของศูนย์ข้อมูล (IDS) สิ่งสำคัญคือต้องดำเนินการกับเอาต์พุตของโมเดลเพื่อปกป้องและป้องกันความเสียหายจากการโจมตีทางไซเบอร์อย่างทันท่วงที และโดยทั่วไปแล้ว ขั้นตอนก่อนการประมวลผลและขั้นตอนหลังการประมวลผลจะมีประสิทธิภาพมากกว่าเมื่อดำเนินการกับ CPU ของระบบโฮสต์ เนื่องจากขั้นตอนเหล่านี้ผสานรวมอย่างใกล้ชิดกับระบบนิเวศทางสถาปัตยกรรมส่วนที่เหลือมากขึ้น

เพิ่มประสิทธิภาพภายใต้คำสั่งเริ่มต้น

นั่นหมายความว่าจะละทิ้งประโยชน์ของการเร่งความเร็ว GPU ไปเลยหรือไม่? ไม่จำเป็น. Intel ได้สร้างการเร่งความเร็วของ AI ในซีพียู Xeon Scalable มาหลายปีแล้ว ช่วงนี้มี Deep Learning Boost สำหรับการอนุมานประสิทธิภาพสูงในโมเดลการเรียนรู้เชิงลึก ในขณะที่ Advanced Vector Extensions 512 (AVX 512) ของ Intel และ Vector Neural Network Extensions (VNNI) เร่งประสิทธิภาพการอนุมาน INT8 แต่ DL Boost ยังใช้รูปแบบจุดลอยตัวของสมอง (BF16) เพื่อเพิ่มประสิทธิภาพให้กับเวิร์กโหลดการฝึกอบรมที่ไม่ต้องการความแม่นยำในระดับสูง

ซีพียูรุ่นที่สี่ Xeon Scalable ที่กำลังจะมาถึงของ Intel จะเพิ่มการคูณเมทริกซ์ขั้นสูงหรือ AMX ซึ่งจะให้ประสิทธิภาพเพิ่มขึ้นอีก 8 เท่าเมื่อเทียบกับส่วนขยาย AVX-512 VNNI x86 ที่ใช้งานในโปรเซสเซอร์รุ่นก่อนหน้าตามการคำนวณของ Intel และช่วยให้โปรเซสเซอร์ Intel Xeon Scalable เจนเนอเรชั่น 4 สามารถ "จัดการเวิร์กโหลดการฝึกอบรมและอัลกอริทึม DL เหมือนกับที่ GPU ทำ" แต่ตัวเร่งความเร็วแบบเดียวกันนี้ยังสามารถใช้กับการประมวลผล CPU ทั่วไปสำหรับปริมาณงาน AI และที่ไม่ใช่ AI

นั่นไม่ได้หมายความว่า Intel คาดหวังว่า AI ไปป์ไลน์จะเป็น x86 ตั้งแต่ต้นจนจบ เมื่อต้องการลดภาระงานการฝึกอบรมที่จะได้รับประโยชน์จากการขนานกันอย่างเต็มที่ Intel ขอเสนอโปรเซสเซอร์ฝึกอบรม Habana Gaudi AI การทดสอบเกณฑ์มาตรฐานชี้ให้เห็นว่าอินสแตนซ์ Amazon EC2 DL1 ที่ทรงพลังรุ่นหลัง ซึ่งสามารถมอบประสิทธิภาพด้านราคาที่ดีกว่าถึง 40 เปอร์เซ็นต์เมื่อเทียบกับอินสแตนซ์การฝึกอบรมที่ใช้ GPU ของ Nvidia ที่เทียบเคียงได้ยังโฮสต์อยู่ในระบบคลาวด์ด้วย

ในขณะเดียวกัน ซีรีส์ GPU Flex ของศูนย์ข้อมูลของ Intel มุ่งสู่ปริมาณงานและการดำเนินงานที่ได้รับประโยชน์จากการทำงานแบบขนาน เช่น การอนุมานของ AI ด้วยการใช้งานที่แตกต่างกันในระดับเสียงแหลมที่โมเดล AI ที่ "เบากว่า" และซับซ้อนกว่า Intel® Data Center GPU อีกตัวที่มีชื่อรหัสว่า Ponte Vecchio (PVC) จะเริ่มจ่ายพลังงานให้กับซูเปอร์คอมพิวเตอร์ Aurora ที่ Argonne National Laboratory ในไม่ช้า

เราสามารถไปจนจบได้หรือไม่?

เป็นไปได้ว่าซิลิคอนของ Intel สามารถสนับสนุนไปป์ไลน์ AI ทั้งหมด ในขณะที่ลดความจำเป็นในการถ่ายโอนข้อมูลระหว่างเครื่องมือคำนวณต่างๆ โดยไม่จำเป็น โปรเซสเซอร์ของบริษัท ไม่ว่าจะเป็น GPU หรือ CPU ยังสนับสนุนโมเดลซอฟต์แวร์ทั่วไปที่ใช้เครื่องมือโอเพ่นซอร์สและเฟรมเวิร์กด้วยการปรับให้เหมาะสมของ Intel ผ่านโปรแกรม OneAPI

Brahmbhatt อ้างถึงมรดกของ Intel ในการสร้างระบบนิเวศซอฟต์แวร์ x86 โดยอิงจากชุมชนและโอเพ่นซอร์สเป็นข้อได้เปรียบอีกประการหนึ่ง “ปรัชญาที่ Intel มีคือ … 'ให้ระบบนิเวศเป็นตัวขับเคลื่อนการยอมรับ' และเราต้องแน่ใจว่าเรายุติธรรมและเปิดกว้างต่อระบบนิเวศ และเราจัดหาซอสลับของเราคืนสู่ระบบนิเวศ”

“เรากำลังใช้ชุดซอฟต์แวร์ทั่วไปเพื่อให้แน่ใจว่านักพัฒนาไม่ต้องกังวลเกี่ยวกับความแตกต่างพื้นฐานของ IP ระหว่าง CPU และ GPU สำหรับ AI”

การรวมกันของชุดซอฟต์แวร์ทั่วไปและการมุ่งเน้นที่การใช้กลไกประมวลผลที่เหมาะสมสำหรับงานที่เหมาะสมนั้นมีความสำคัญยิ่งกว่าในองค์กร ธุรกิจต่างพึ่งพา AI เพื่อช่วยแก้ปัญหาที่เร่งด่วนที่สุด ไม่ว่าจะอยู่ในระบบคลาวด์หรือในองค์กร แต่ปริมาณงานแบบผสมต้องการซอฟต์แวร์ที่มีคุณสมบัติครบถ้วน เช่นเดียวกับการบำรุงรักษาและการจัดการสแต็กระบบ เพื่อรันโค้ดที่ไม่ได้รวมอยู่ในเคอร์เนลที่อยู่บนตัวเร่งความเร็ว

ดังนั้น เมื่อต้องตอบคำถามว่า “เราจะนำ AI ไปสู่ระดับองค์กรได้อย่างไร” คำตอบอาจขึ้นอยู่กับการมองภาพรวมและตรวจสอบให้แน่ใจว่าคุณใช้ชุดฮาร์ดแวร์และซอฟต์แวร์ที่สมบูรณ์ตามที่คุณต้องการ

สนับสนุนโดยอินเทล

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน