Nvidia: ในอนาคตซอฟต์แวร์เป็นเพียงชุดของ LLM

Nvidia: ในอนาคตซอฟต์แวร์เป็นเพียงชุดของ LLM

Nvidia: ในอนาคตซอฟต์แวร์เป็นเพียงชุดของ PlatoBlockchain Data Intelligence ของ LLM ค้นหาแนวตั้ง AI.

ไม่ต้องสนใจการใช้โมเดลภาษาขนาดใหญ่ (LLM) เพื่อช่วยเขียนโค้ด Jensen Huang ซีอีโอของ Nvidia เชื่อว่าในอนาคต ซอฟต์แวร์ระดับองค์กรจะเป็นเพียงชุดของแชทบอทที่รวมตัวกันเพื่อทำงานให้สำเร็จ

“ไม่น่าเป็นไปได้ที่คุณจะเขียนมันตั้งแต่เริ่มต้นหรือเขียนโค้ด Python ทั้งหมดหรืออะไรทำนองนั้น” เขากล่าวบนเวทีระหว่าง GTC ประเด็นสำคัญ วันจันทร์. “มีความเป็นไปได้มากที่คุณจะรวมทีม AI”

Jensen อธิบายว่าทีม AI นี้อาจรวมโมเดลที่ออกแบบมาเพื่อแยกย่อยและมอบหมายคำขอให้กับโมเดลอื่นๆ โมเดลเหล่านี้บางรุ่นอาจได้รับการฝึกอบรมเพื่อทำความเข้าใจบริการทางธุรกิจ เช่น SAP หรือ Service Now ในขณะที่โมเดลอื่นๆ อาจทำการวิเคราะห์เชิงตัวเลขกับข้อมูลที่จัดเก็บไว้ในฐานข้อมูลเวกเตอร์ ข้อมูลนี้สามารถนำมารวมกันและนำเสนอต่อผู้ใช้โดยใช้โมเดลอื่นได้

“เราสามารถรับรายงานได้ทุกวันหรือทุกๆ ชั่วโมงที่เกี่ยวข้องกับแผนการสร้าง หรือการคาดการณ์ การแจ้งเตือนลูกค้า หรือฐานข้อมูลข้อบกพร่องบางอย่าง หรืออะไรก็ตามที่เกิดขึ้น” เขาอธิบาย

เพื่อเชื่อมโยงโมเดลเหล่านี้ทั้งหมดเข้าด้วยกัน Nvidia กำลังนำหน้าออกจากหนังสือของ Docker และได้สร้างคอนเทนเนอร์รันไทม์สำหรับ AI

เรียกว่า Nvidia Inference Microservices หรือเรียกสั้น ๆ ว่า NIM เหล่านี้เป็นคอนเทนเนอร์อิมเมจที่มีทั้งโมเดล ไม่ว่าจะเป็นโอเพ่นซอร์สหรือกรรมสิทธิ์ พร้อมด้วยการขึ้นต่อกันทั้งหมดที่จำเป็นเพื่อให้มันทำงานได้ โมเดลคอนเทนเนอร์เหล่านี้สามารถนำไปใช้งานกับรันไทม์จำนวนเท่าใดก็ได้ รวมถึงโหนด Kubernetes ที่เร่งด้วย Nvidia

“คุณสามารถปรับใช้บนโครงสร้างพื้นฐานของเราที่เรียกว่า DGX Cloud หรือปรับใช้ในองค์กร หรือปรับใช้ได้ทุกที่ที่คุณต้องการ เมื่อคุณพัฒนามันแล้ว คุณก็สามารถพกพาไปได้ทุกที่” Jensen กล่าว

แน่นอนว่าคุณจะต้องสมัครสมาชิกชุด AI Enterprise ของ Nvidia ก่อน ซึ่งราคาไม่ถูกนักที่ 4,500 เหรียญสหรัฐฯ ต่อปีต่อ GPU หรือ 1 เหรียญต่อชั่วโมงต่อ GPU ในระบบคลาวด์ กลยุทธ์การกำหนดราคานี้ดูเหมือนจะจูงใจระบบที่มีประสิทธิภาพสูงขึ้นโดยทั่วไป เนื่องจากมีต้นทุนเท่ากัน ไม่ว่าคุณจะใช้ L40 หรือ B100s.

หากแนวคิดในการบรรจุปริมาณงานที่เร่งด้วย GPU ฟังดูคุ้นเคย นี่ไม่ใช่แนวคิดใหม่สำหรับ Nvidia CUDA เร่งความเร็วได้แล้ว ได้รับการสนับสนุน บนรันไทม์คอนเทนเนอร์ที่หลากหลาย รวมถึง Docker, Podman, Containerd หรือ CRI-O เป็นเวลาหลายปี และดูเหมือนว่า Container Runtime ของ Nvidia จะไม่ไปไหนเลย

คุณค่าที่อยู่เบื้องหลัง NIM ดูเหมือนว่า Nvidia จะจัดการแพ็คเกจและการเพิ่มประสิทธิภาพของโมเดลเหล่านี้ เพื่อให้มีเวอร์ชันที่ถูกต้องของ CUDA, Triton Inference Server หรือ TensorRT LLM ซึ่งจำเป็นเพื่อให้ได้ประสิทธิภาพที่ดีที่สุด

ข้อโต้แย้งคือหาก Nvidia เปิดตัวการอัปเดตที่ช่วยเพิ่มประสิทธิภาพการอนุมานของรุ่นบางประเภทได้อย่างมาก การใช้ประโยชน์จากฟังก์ชันดังกล่าวก็เพียงแค่ดึงอิมเมจ NIM ล่าสุดออกเท่านั้น

นอกเหนือจากการเพิ่มประสิทธิภาพโมเดลเฉพาะของฮาร์ดแวร์แล้ว Nvidia ยังทำงานเพื่อให้เกิดการสื่อสารที่สอดคล้องกันระหว่างคอนเทนเนอร์ เพื่อให้สามารถสนทนากันผ่านการเรียก API

ตามที่เราเข้าใจ การเรียก API ที่ใช้โดยโมเดล AI ต่างๆ ในตลาดปัจจุบันไม่สอดคล้องกันเสมอไป ส่งผลให้การรวมบางโมเดลเข้าด้วยกันได้ง่ายขึ้น และในขณะที่บางโมเดลอาจต้องมีการทำงานเพิ่มเติม

การให้ความรู้เชิงสถาบันแก่แบบจำลองวัตถุประสงค์ทั่วไป

ใครก็ตามที่เคยใช้แชทบอท AI จะรู้ว่าแม้ว่าพวกเขาจะตอบคำถามความรู้ทั่วไปได้ดี แต่ก็ไม่ได้น่าเชื่อถือที่สุดเสมอไปสำหรับคำขอที่ไม่ชัดเจนหรือทางเทคนิค

เจนเซ่นเน้นย้ำข้อเท็จจริงนี้ในระหว่างการปราศรัยของเขา เมื่อถามเกี่ยวกับโปรแกรมภายในที่ใช้ภายใน Nvidia โมเดลภาษาขนาดใหญ่ Llama 2 70B ของ Meta ก็ไม่น่าแปลกใจเลยที่ให้คำจำกัดความของคำที่ไม่เกี่ยวข้องกัน

แทนที่จะพยายามให้องค์กรต่างๆ ฝึกฝนโมเดลของตนเอง — สิ่งที่จะขาย GPU จำนวนมาก แต่จะจำกัดตลาดที่อยู่ได้อย่างมาก — Nvidia ได้พัฒนาเครื่องมือเพื่อปรับแต่ง NIM ด้วยข้อมูลและกระบวนการของลูกค้า

“เรามีบริการที่เรียกว่า NeMo Microservices ที่ช่วยคุณดูแลจัดการข้อมูล เตรียมข้อมูลเพื่อให้คุณสามารถ... ใช้งาน AI นี้ คุณปรับแต่งมันอย่างละเอียดแล้วคุณก็ป้องกันมัน จากนั้นคุณสามารถประเมิน... ประสิทธิภาพเทียบกับตัวอย่างอื่นๆ ได้” Huang อธิบาย

นอกจากนี้เขายังได้พูดคุยเกี่ยวกับบริการ NeMo Retriever ของ Nvidia ซึ่งมีพื้นฐานมาจากแนวคิดในการใช้การดึงข้อมูลรุ่นเสริม (RAG) เพื่อแสดงข้อมูลที่โมเดลดังกล่าวไม่ได้รับการฝึกอบรมเป็นพิเศษ

แนวคิดนี้คือสามารถโหลดเอกสาร กระบวนการ และข้อมูลอื่นๆ ลงในฐานข้อมูลเวกเตอร์ที่เชื่อมต่อกับโมเดลได้ จากการสืบค้น โมเดลจะสามารถค้นหาฐานข้อมูลนั้น ดึงข้อมูล และสรุปข้อมูลที่เกี่ยวข้องได้

โมเดล NIM และ NeMo Retriever สำหรับการผสานรวม RAG มีวางจำหน่ายแล้วในขณะนี้ ขณะที่ NeMo Microservices อยู่ในช่วงทดลองใช้ก่อนเปิดตัว ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน