โมเดลภาษาขนาดใหญ่ชั้นนำอาจมีความน่าสนใจ ความจริงก็คือมีเพียงบริษัทที่ใหญ่ที่สุดเท่านั้นที่มีทรัพยากรในการปรับใช้และฝึกอบรมพวกเขาในระดับที่มีความหมาย
สำหรับองค์กรที่ต้องการใช้ประโยชน์จาก AI เพื่อความได้เปรียบในการแข่งขัน ทางเลือกที่ถูกกว่าและถูกกว่าอาจเหมาะสมกว่า โดยเฉพาะอย่างยิ่งหากสามารถปรับให้เข้ากับอุตสาหกรรมหรือโดเมนเฉพาะ
นั่นคือสิ่งที่กลุ่มสตาร์ทอัพ AI เกิดใหม่หวังว่าจะเจาะกลุ่มเฉพาะ: โดยการสร้างแบบจำลองที่เบาบางและปรับแต่งได้ซึ่งอาจไม่ทรงพลังเท่า จีพีที-3ดีพอสำหรับกรณีการใช้งานขององค์กรและทำงานบนฮาร์ดแวร์ที่ทิ้งหน่วยความจำแบนด์วิดท์สูง (HBM) ราคาแพงสำหรับ DDR สินค้าโภคภัณฑ์
Aleph Alpha บริษัทสตาร์ทอัพด้าน AI สัญชาติเยอรมันเป็นตัวอย่างหนึ่ง ก่อตั้งขึ้นในปี 2019 บริษัท Heidelberg ประเทศเยอรมนี เรืองแสง โมเดลภาษาธรรมชาติมีคุณสมบัติที่ดึงดูดพาดหัวข่าวมากมายเช่นเดียวกับ GPT-3 ของ OpenAI: การเขียนคำโฆษณา การจัดประเภท การสรุป และการแปล เป็นต้น
การเริ่มต้นโมเดลได้ร่วมมือกับ Graphcore เพื่อสำรวจและพัฒนาโมเดลภาษากระจัดกระจายใน British ฮาร์ดแวร์ของผู้ผลิตชิป.
“IPU ของ Graphcore นำเสนอโอกาสในการประเมินแนวทางเทคโนโลยีขั้นสูง เช่น การกระจัดแบบมีเงื่อนไข” Jonas Andrulius ซีอีโอของ Aleph Alpha กล่าวใน คำสั่ง. “สถาปัตยกรรมเหล่านี้ไม่ต้องสงสัยจะมีบทบาทในการวิจัยในอนาคตของ Aleph Alpha”
การเดิมพันครั้งใหญ่ของ Graphcore ในเรื่องความเบาบาง
โมเดลแบบกระจายตามเงื่อนไข - บางครั้งเรียกว่าการผสมผสานของผู้เชี่ยวชาญหรือโมเดลที่กำหนดเส้นทาง - ประมวลผลข้อมูลกับพารามิเตอร์ที่เกี่ยวข้องเท่านั้น ซึ่งสามารถลดทรัพยากรการประมวลผลที่จำเป็นในการรันโมเดลได้อย่างมาก
ตัวอย่างเช่น หากโมเดลภาษาได้รับการฝึกอบรมในทุกภาษาบนอินเทอร์เน็ต แล้วถูกถามคำถามเป็นภาษารัสเซีย จะไม่สมเหตุสมผลที่จะเรียกใช้ข้อมูลนั้นผ่านโมเดลทั้งหมด เฉพาะพารามิเตอร์ที่เกี่ยวข้องกับภาษารัสเซียเท่านั้น อธิบาย Graphcore CTO Simon Knowles ในการให้สัมภาษณ์กับ ลงทะเบียน.
“มันชัดเจนอย่างสมบูรณ์ นี่คือวิธีที่สมองของคุณทำงาน และ AI ก็ควรทำงานด้วยเช่นกัน” เขากล่าว “ฉันพูดมาหลายครั้งแล้ว แต่ถ้า AI ทำอะไรได้หลายอย่าง ก็ไม่จำเป็นต้องเข้าถึงความรู้ทั้งหมดเพื่อทำสิ่งใดสิ่งหนึ่ง”
Knowles ซึ่งเป็นบริษัทผู้ผลิตเครื่องเร่งความเร็วสำหรับโมเดลประเภทนี้ ไม่เชื่ออย่างแปลกใจว่านี่คืออนาคตของ AI “ฉันจะแปลกใจถ้าในปีหน้า ใครๆ ก็สร้างแบบจำลองที่มีภาษาหนาแน่น” เขากล่าวเสริม
HBM-2 แพ่ง? แคชใน DDR แทน
โมเดลภาษากระจัดกระจายไม่ได้ปราศจากความท้าทาย สิ่งที่เร่งด่วนที่สุดตามที่ Knowles กล่าวคือเกี่ยวข้องกับความทรงจำ HBM ที่ใช้ใน GPU ระดับไฮเอนด์เพื่อให้ได้แบนด์วิดท์และความจุที่จำเป็นตามที่รุ่นเหล่านี้ต้องการนั้นมีราคาแพงและต่อเข้ากับตัวเร่งความเร็วที่มีราคาแพงกว่า
นี่ไม่ใช่ปัญหาสำหรับโมเดลที่มีภาษาหนาแน่นซึ่งคุณอาจต้องการการประมวลผลและหน่วยความจำทั้งหมด แต่จะสร้างปัญหาสำหรับโมเดลแบบกระจายซึ่งชอบหน่วยความจำมากกว่าการคำนวณ เขาอธิบาย
เทคโนโลยีการเชื่อมต่อระหว่างกัน เช่น NVLink ของ Nvidia สามารถใช้เพื่อรวมหน่วยความจำใน GPU หลายตัว แต่ถ้ารุ่นนั้นไม่ต้องการการคำนวณทั้งหมด GPU อาจถูกปล่อยทิ้งไว้เฉยๆ “มันเป็นวิธีที่แพงมากในการซื้อหน่วยความจำ” Knowles กล่าว
ตัวเร่งความเร็วของ Graphcore พยายามหลีกเลี่ยงความท้าทายนี้โดยยืมเทคนิคที่เก่าเท่ากับการประมวลผล: การแคช IPU แต่ละตัวมีแคช SRAM ที่ค่อนข้างใหญ่ — 1GB — เพื่อตอบสนองความต้องการแบนด์วิดท์ของรุ่นเหล่านี้ ในขณะที่ความจุดิบทำได้โดยใช้หน่วยความจำ DDR4 ราคาไม่แพงจำนวนมาก
“ยิ่งคุณมี SRAM มากเท่าไร แบนด์วิดท์ DRAM ที่คุณต้องการก็จะยิ่งน้อยลง และนี่คือสิ่งที่ทำให้เราไม่สามารถใช้ HBM ได้” Knowles กล่าว
การแยกหน่วยความจำออกจากตัวเร่งความเร็วทำให้มีราคาถูกลงมาก — ค่าใช้จ่ายสำหรับโมดูล DDR สินค้าบางตัว — สำหรับองค์กรเพื่อรองรับโมเดล AI ที่ใหญ่กว่า
นอกจากการรองรับหน่วยความจำที่ถูกกว่าแล้ว Knowles ยังอ้างว่า IPU ของบริษัทยังมีข้อได้เปรียบทางสถาปัตยกรรมเหนือ GPU อย่างน้อยก็ในรุ่นบางรุ่น
แทนที่จะใช้ตัวคูณเมทริกซ์ขนาดใหญ่จำนวนเล็กน้อย เช่นเดียวกับที่คุณพบในหน่วยประมวลผลเทนเซอร์ ชิปของ Graphcore มีหน่วยทางคณิตศาสตร์เมทริกซ์ขนาดเล็กจำนวนมากที่สามารถระบุหน่วยความจำได้อย่างอิสระ
สิ่งนี้ให้รายละเอียดที่ละเอียดยิ่งขึ้นสำหรับโมเดลแบบกระจาย ซึ่ง "คุณต้องการอิสระในการดึงข้อมูลชุดย่อยที่เกี่ยวข้อง และหน่วยที่คุณต้องใช้ในการดึงข้อมูลมีขนาดเล็กลง คุณก็จะมีอิสระมากขึ้น" เขาอธิบาย
คำตัดสินยังไม่ออก
เมื่อรวมเข้าด้วยกัน Knowles โต้แย้งว่าแนวทางนี้ช่วยให้ IPU ของตนฝึกโมเดล AI/ML ขนาดใหญ่ที่มีพารามิเตอร์หลายแสนล้านหรือล้านล้านได้ โดยมีต้นทุนที่ต่ำกว่ามากเมื่อเทียบกับ GPU
อย่างไรก็ตาม ตลาด AI ขององค์กรยังอยู่ในช่วงเริ่มต้น และ Graphcore เผชิญกับการแข่งขันที่รุนแรงในพื้นที่นี้จากคู่แข่งที่ใหญ่กว่าและเป็นที่ยอมรับมากกว่า
ดังนั้นในขณะที่การพัฒนาโมเดลภาษาที่มีอัตราตัดต่ำเป็นพิเศษสำหรับ AI นั้นไม่น่าจะลดลงในเร็วๆ นี้ แต่คงต้องรอดูกันต่อไปว่าจะเป็น IPU ของ Graphcore หรือตัวเร่งความเร็วของบุคคลอื่นที่จะช่วยเสริมพลังให้กับปริมาณงาน AI ขององค์กร ®
- AI
- ไอ อาร์ต
- เครื่องกำเนิดไออาร์ท
- หุ่นยนต์ไอ
- ปัญญาประดิษฐ์
- ใบรับรองปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ในการธนาคาร
- หุ่นยนต์ปัญญาประดิษฐ์
- หุ่นยนต์ปัญญาประดิษฐ์
- ซอฟต์แวร์ปัญญาประดิษฐ์
- blockchain
- การประชุม blockchain ai
- เหรียญอัจฉริยะ
- ปัญญาประดิษฐ์สนทนา
- การประชุม crypto ai
- ดัล-อี
- การเรียนรู้ลึก ๆ
- google ai
- เรียนรู้เครื่อง
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- เกมเพลโต
- เพลโตดาต้า
- เพลโตเกม
- ขนาดไอ
- วากยสัมพันธ์
- ลงทะเบียน
- ลมทะเล