สัมภาษณ์ผู้บริหารซอฟต์แวร์ Nvidia Kari Briski

สัมภาษณ์ผู้บริหารซอฟต์แวร์ Nvidia Kari Briski

สัมภาษณ์กับผู้บริหารซอฟต์แวร์ Nvidia Kari Briski PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สัมภาษณ์ การประชุมเทคโนโลยี GPU ของ Nvidia สิ้นสุดลงเมื่อสัปดาห์ที่แล้ว โดยนำเสนอชิป Blackwell ของบริษัท และความมหัศจรรย์ของ AI ที่อัดแน่นไปด้วยฮาร์ดแวร์ GPU ที่ซื้อมาอย่างมากมายซึ่งมีความหมาย

นั่นคือข่าวลือทั่วบริษัทว่าราคาหุ้นของบริษัทกำลังพุ่งสูงเป็นประวัติการณ์ โดยอิงจากแนวคิดที่ว่าความพยายามเชิงสร้างสรรค์หลายอย่างสามารถทำได้เร็วขึ้น หากไม่ดีขึ้นด้วยระบบอัตโนมัติที่เปิดใช้งานโดยโมเดลการเรียนรู้ของเครื่อง

ที่ยังคงมีการทดสอบในตลาด

จอร์จ ซานตายานา ครั้งหนึ่ง เขียน: “ผู้ที่จำอดีตไม่ได้ จะถูกประณามให้ทำซ้ำ” เป็นประโยคที่พูดซ้ำบ่อยๆ แต่การรำลึกถึงสิ่งต่างๆ ในอดีตไม่ได้ทำให้โมเดล AI แตกต่างออกไปจริงๆ พวกเขาจำอดีตได้ แต่พวกเขายังคงถูกประณามให้ทำซ้ำตามความต้องการในบางครั้งก็ไม่ถูกต้อง

ถึงกระนั้นก็ตาม หลายคนก็สาบานต่อ AI อันยิ่งใหญ่ โดยเฉพาะผู้ที่ขายฮาร์ดแวร์ AI หรือบริการคลาวด์ Nvidia และบริษัทอื่น ๆ กำลังวางเดิมพันครั้งใหญ่. ดังนั้น ลงทะเบียน เยี่ยมชมการประชุม GPU สั้นๆ เพื่อดูว่าปัญหาทั้งหมดเกี่ยวกับอะไร แน่นอนว่ามันไม่เกี่ยวกับมะนาวบาร์ที่เสิร์ฟในห้องจัดแสดงเมื่อวันพฤหัสบดี ซึ่งหลายแห่งยุติการเสนอขายต่อประชาชนครั้งแรกที่ยังสร้างไม่เสร็จในถังขยะบนพื้นโชว์

สิ่งที่น่าสนใจยิ่งกว่าคือการสนทนา ลงทะเบียน ได้ร่วมงานกับ Kari Briski รองประธานฝ่ายการจัดการผลิตภัณฑ์สำหรับชุดพัฒนาซอฟต์แวร์ AI และ HPC ที่ Nvidia เธอเป็นหัวหน้าฝ่ายการจัดการผลิตภัณฑ์ซอฟต์แวร์สำหรับโมเดลพื้นฐาน ไลบรารี SDK และไมโครเซอร์วิสที่เกี่ยวข้องกับการฝึกอบรมและการอนุมานของบริษัท เช่นเดียวกับที่เพิ่งประกาศใหม่ ส่วนต่างอัตราดอกเบี้ย ไมโครเซอร์วิสและเป็นที่ยอมรับที่ดีขึ้น เนโม กรอบการใช้งาน

ลงทะเบียน: บริษัทต่างๆ จะใช้ไมโครเซอร์วิสเหล่านี้อย่างไร ทั้งในระบบคลาวด์ และภายในองค์กร

บริสกี้: นั่นคือข้อดีจริงๆ ว่าทำไมเราถึงสร้าง NIM เป็นเรื่องตลกที่จะพูดว่า "NIM" แต่เราเริ่มต้นการเดินทางครั้งนี้เมื่อนานมาแล้ว เราทำงานโดยอนุมานมาตั้งแต่เริ่มต้น ฉันคิดว่าเป็น TensorRT 1.0 เมื่อเริ่มต้นปี 2016

ในช่วงหลายปีที่ผ่านมา เราได้เพิ่มกลุ่มการอนุมานของเรา โดยเรียนรู้เพิ่มเติมเกี่ยวกับปริมาณงานทุกประเภท โดยเริ่มจากคอมพิวเตอร์วิทัศน์และระบบและคำพูดของผู้แนะนำเชิงลึก การรู้จำเสียงพูดอัตโนมัติและการสังเคราะห์เสียงพูด และในปัจจุบันมีโมเดลภาษาขนาดใหญ่ เป็นสแต็กที่เน้นนักพัฒนาจริงๆ และตอนนี้องค์กรต่างๆ [ได้เห็น] OpenAI และ ChatGPT แล้ว พวกเขาเข้าใจถึงความจำเป็นที่จะต้องมีโมเดลภาษาขนาดใหญ่เหล่านี้ทำงานถัดจากข้อมูลองค์กรหรือในแอปพลิเคชันขององค์กร

ผู้ให้บริการคลาวด์โดยเฉลี่ยสำหรับบริการที่ได้รับการจัดการ พวกเขามีวิศวกรหลายร้อยคนที่ทำงานเกี่ยวกับการอนุมานและเทคนิคการปรับให้เหมาะสม รัฐวิสาหกิจไม่สามารถทำเช่นนั้นได้ พวกเขาจำเป็นต้องได้รับเวลาต่อมูลค่าทันที นั่นเป็นเหตุผลที่เราสรุปทุกสิ่งที่เราได้เรียนรู้ในช่วงหลายปีที่ผ่านมาด้วย TensorRT, โมเดลภาษาขนาดใหญ่, Triton Inference Server, API มาตรฐาน และการตรวจสุขภาพ [แนวคิดคือการ] สามารถสรุปทั้งหมดเพื่อให้คุณได้รับจากศูนย์ไปจนถึงจุดสิ้นสุดของโมเดลภาษาขนาดใหญ่ได้ภายในเวลาไม่ถึงห้านาที

[ในส่วนที่เกี่ยวกับศูนย์ข้อมูลภายในองค์กรและบนคลาวด์] ลูกค้าจำนวนมากของเราเป็นไฮบริดคลาวด์ พวกเขามีความต้องการด้านคอมพิวเตอร์ ดังนั้น แทนที่จะส่งข้อมูลไปยังบริการที่ได้รับการจัดการ พวกเขาสามารถเรียกใช้ไมโครเซอร์วิสใกล้กับข้อมูลของตน และเรียกใช้ได้ทุกที่ที่ต้องการ

ลงทะเบียน: ซอฟต์แวร์ของ Nvidia สำหรับ AI มีลักษณะอย่างไรในแง่ของภาษาการเขียนโปรแกรม? มันยังคงเป็น CUDA, Python, C และ C++ เป็นส่วนใหญ่หรือไม่ คุณกำลังมองหาที่อื่นเพื่อความรวดเร็วและประสิทธิภาพที่มากขึ้นหรือไม่?

บริสกี้: เราสำรวจอยู่เสมอว่านักพัฒนาใช้งานอยู่ที่ใด นั่นเป็นกุญแจสำคัญของเรามาโดยตลอด นับตั้งแต่ฉันเริ่มต้นที่ Nvidia ฉันก็ได้ทำงานเกี่ยวกับห้องสมุดคณิตศาสตร์แบบเร่งรัด ก่อนอื่นคุณต้องเขียนโปรแกรมใน CUDA เพื่อให้มีความเท่าเทียม จากนั้นเราก็มี C API และเรามี Python API ดังนั้นมันเป็นเรื่องเกี่ยวกับการนำแพลตฟอร์มไปทุกที่ที่นักพัฒนาอยู่ ขณะนี้ นักพัฒนาเพียงต้องการเข้าถึงจุดสิ้นสุด API ที่เรียบง่าย เช่น ด้วยคำสั่ง curl หรือคำสั่ง Python หรืออะไรที่คล้ายกัน ดังนั้นมันจึงต้องเรียบง่ายสุดๆ เพราะนั่นคือสิ่งที่เราจะพบปะกับนักพัฒนาในวันนี้

ลงทะเบียน: CUDA มีบทบาทสำคัญในการทำให้การคำนวณ GPU มีประสิทธิภาพอย่างเห็นได้ชัด Nvidia กำลังทำอะไรเพื่อพัฒนา CUDA ?

บริสกี้: CUDA เป็นรากฐานสำหรับ GPU ทั้งหมดของเรา เป็น GPU ที่เปิดใช้งาน CUDA และตั้งโปรแกรมได้ CUDA เมื่อไม่กี่ปีก่อน เราเรียกมันว่า CUDA-X เนื่องจากคุณมีภาษาเฉพาะโดเมนเหล่านี้ ดังนั้น หากคุณมีภาพทางการแพทย์ [ใบสมัคร] คุณก็จะมี cuCIM. หากคุณมีการรู้จำเสียงอัตโนมัติ คุณจะมีตัวถอดรหัสการค้นหาลำแสงแบบเร่ง CUDA ที่ส่วนท้ายของมัน ดังนั้นจึงมีทุกสิ่งที่เฉพาะเจาะจงเหล่านี้สำหรับปริมาณงานทุกประเภทที่ CUDA เร่งไว้ เราได้สร้างห้องสมุดพิเศษเหล่านี้ขึ้นมาตลอดหลายปีที่ผ่านมา CUDF และ คิวMLและลูกบาศ์ก-นี้-และ-นั้น ไลบรารี CUDA ทั้งหมดนี้เป็นรากฐานของสิ่งที่เราสร้างขึ้นในช่วงหลายปีที่ผ่านมา และตอนนี้เรากำลังสร้างสิ่งที่เหนือกว่านั้น

ลงทะเบียน: Nvidia มองการพิจารณาต้นทุนในแง่ของวิธีการออกแบบซอฟต์แวร์และฮาร์ดแวร์อย่างไร สำหรับ Nvidia AI Enterprise ราคา 4,500 ดอลลาร์ต่อ GPU ทุกปี ซึ่งถือว่ามาก

บริสกี้: ประการแรก สำหรับบริษัทขนาดเล็ก เรามีเสมอ จัดตั้งกองทุน โปรแกรม. เราทำงานร่วมกับลูกค้าอยู่เสมอ – ทดลองใช้งานฟรี 90 วัน มันมีค่าสำหรับคุณจริงหรือ? คุ้มจริงมั้ย? จากนั้น เพื่อลดต้นทุนของคุณเมื่อคุณซื้อผลิตภัณฑ์ดังกล่าว เราจะเพิ่มประสิทธิภาพซอฟต์แวร์ของเราอยู่เสมอ ดังนั้น หากคุณซื้อที่ 4,500 เหรียญสหรัฐต่อ GPU ต่อปีต่อใบอนุญาต และคุณกำลังใช้งาน A100 และคุณใช้งาน H100 พรุ่งนี้ ราคาก็จะเท่ากัน – ต้นทุนของคุณลดลง [สัมพันธ์กับปริมาณงานของคุณ] ดังนั้นเราจึงสร้างการเพิ่มประสิทธิภาพและต้นทุนรวมในการเป็นเจ้าของและประสิทธิภาพกลับคืนสู่ซอฟต์แวร์อยู่เสมอ

เมื่อเราคิดถึงทั้งการฝึกอบรมและการอนุมาน การฝึกอบรมอาจใช้เวลานานกว่านั้นเล็กน้อย แต่เรามีตัวกำหนดค่าอัตโนมัติเหล่านี้เพื่อให้สามารถพูดได้ว่า “คุณมีข้อมูลมากแค่ไหน คุณต้องการคอมพิวเตอร์จำนวนเท่าใด? คุณต้องการใช้เวลานานเท่าไหร่?” ดังนั้นคุณจึงสามารถใช้พื้นที่การประมวลผลน้อยลง แต่อาจใช้เวลานานกว่าในการฝึกอบรมโมเดลของคุณ … คุณต้องการฝึกอบรมโมเดลดังกล่าวภายในหนึ่งสัปดาห์หรือไม่ หรือคุณอยากจะฝึกมันภายในหนึ่งวัน? ดังนั้นคุณจึงสามารถแลกเปลี่ยนสิ่งเหล่านั้นได้

ลงทะเบียน: ในแง่ของปัญหาในปัจจุบัน มีอะไรที่คุณต้องการแก้ไขเป็นพิเศษ หรือมีความท้าทายทางเทคนิคที่คุณต้องการเอาชนะหรือไม่

บริสกี้: ตอนนี้มันเป็นการขับเคลื่อนด้วยเหตุการณ์ ผ้าขี้ริ้ว [ซึ่งเป็นวิธีการเสริมโมเดล AI ด้วยข้อมูลที่ดึงมาจากแหล่งภายนอก] องค์กรจำนวนมากกำลังคิดถึงพรอมต์แบบคลาสสิกเพื่อสร้างคำตอบ แต่จริงๆ แล้ว สิ่งที่เราต้องการทำคือ [เชื่อมโยง] ระบบกำเนิดใหม่ที่ดึงข้อมูลมาเสริมเข้าด้วยกันทั้งหมดเข้าด้วยกัน เพราะถ้าคุณคิดถึงคุณและงานที่คุณอาจต้องการทำให้สำเร็จ: “โอ้ ฉันต้องไปคุยกับทีมฐานข้อมูล และทีมฐานข้อมูลนั้นต้องไปคุยกับทีม Tableau พวกเขาต้องสร้างแดชบอร์ดให้ฉัน” และสิ่งเหล่านี้ทั้งหมดต้องเกิดขึ้นก่อนที่คุณจะทำงานให้สำเร็จได้ และมันก็เป็น RAG ที่ขับเคลื่อนด้วยเหตุการณ์แบบนั้น ฉันจะไม่พูดว่า RAG กำลังพูดคุยกับ RAG แต่โดยพื้นฐานแล้ว เจ้าหน้าที่ออกไปและทำงานหนักมากแล้วกลับมา และเรากำลังอยู่บนจุดสูงสุดของเรื่องนั้น ฉันคิดว่านั่นเป็นสิ่งที่ฉันตื่นเต้นมากที่จะได้เห็นในปี 2024

ลงทะเบียน: Nvidia dogfooding AI ของตัวเองหรือไม่? คุณพบว่า AI มีประโยชน์ภายในหรือไม่?

บริสกี้: จริงๆ แล้วเราเลิกกันแล้วเมื่อปีที่แล้ว เนื่องจากปี 2023 เป็นปีแห่งการสำรวจ มี 150 ทีมใน Nvidia ที่ฉันพบ อาจมีมากกว่านี้ และเราพยายามจะบอกว่า คุณใช้เครื่องมือของเราอย่างไร เป็นประเภทไหน ของกรณีการใช้งาน และเราเริ่มรวมการเรียนรู้ทั้งหมด เช่น จากดอกไม้นับพันที่บานสะพรั่ง และเราก็รวมการเรียนรู้ทั้งหมดเข้าด้วยกันเป็นแนวทางปฏิบัติที่ดีที่สุดไว้ในที่เดียว นั่นคือสิ่งที่เราปล่อยออกมาตามที่เราเรียกว่าจริงๆ ตัวอย่าง AI เจนเนอเรชั่น บน GitHub เพราะเราเพียงต้องการรวมแนวทางปฏิบัติที่ดีที่สุดทั้งหมดไว้ในที่เดียว

นั่นคือสิ่งที่เราทำในเชิงโครงสร้าง แต่เพื่อเป็นตัวอย่างที่ชัดเจน ฉันคิดว่าเราได้เขียนบทความดีๆ ชื่อนี้ขึ้นมา ชิปนีโมและจริงๆ แล้วทั้งหมดนี้เกี่ยวข้องกับ EDA, ทีมออกแบบ VLSI ของเรา และวิธีที่พวกเขาใช้โมเดลพื้นฐานและฝึกอบรมโมเดลโดยใช้ข้อมูลที่เป็นกรรมสิทธิ์ของเรา เรามีภาษาการเขียนโค้ดสำหรับ VLSI ของเราเอง ดังนั้นพวกเขาจึงเขียนโค้ด copilots [โมเดลการสร้างโค้ดโอเพ่นซอร์ส] เพื่อให้สามารถสร้างภาษาที่เป็นกรรมสิทธิ์ของเรา และเพื่อช่วยเพิ่มประสิทธิภาพการทำงานของวิศวกรหน้าใหม่ที่กำลังเข้ามาซึ่งไม่ค่อยรู้จักโค้ดการเขียนชิปออกแบบ VLSI ของเรา

และนั่นก็โดนใจลูกค้าทุกคน ดังนั้นหากคุณพูดคุยกับ SAP พวกเขาจะมี ABAP (Advanced Business Application Programming) ซึ่งเหมือนกับ SQL ที่เป็นกรรมสิทธิ์ในฐานข้อมูลของพวกเขา และฉันได้พูดคุยกับลูกค้าอีกสามคนที่มีภาษาที่เป็นกรรมสิทธิ์ต่างกัน แม้แต่ SQL ก็มีภาษาถิ่นประมาณหลายร้อยภาษา ดังนั้นความสามารถในการสร้างโค้ดจึงไม่ใช่กรณีการใช้งานที่ RAG สามารถแก้ไขได้ทันที ใช่ RAG ช่วยดึงเอกสารและตัวอย่างโค้ดบางส่วน แต่หากไม่ได้รับการฝึกฝนให้สร้างโทเค็นในภาษานั้น ก็ไม่สามารถสร้างโค้ดได้เพียงอย่างเดียว

ลงทะเบียน: เมื่อคุณดูโมเดลภาษาขนาดใหญ่และวิธีการเชื่อมโยงพวกมันเข้ากับแอปพลิเคชัน คุณกำลังคิดถึงเวลาแฝงที่อาจเกิดขึ้นและวิธีจัดการกับสิ่งนั้นหรือไม่ มีบางครั้งที่ฮาร์ดโค้ดแผนผังการตัดสินใจดูเหมือนว่ามันจะสมเหตุสมผลมากกว่าหรือไม่?

บริสกี้: คุณพูดถูก เมื่อคุณถามคำถามเฉพาะเจาะจงหรือแจ้งให้ทราบ แม้แต่คำถามเดียวก็อาจมีแบบจำลองห้าหรือเจ็ดแบบที่เริ่มต้นแล้วเพื่อให้คุณได้รับการเขียนใหม่และรั้วและตัวดึงข้อมูลและการจัดอันดับใหม่ทันที แล้วก็เครื่องกำเนิดไฟฟ้า นั่นเป็นเหตุผลว่าทำไม NIM จึงมีความสำคัญมาก เนื่องจากเราได้ปรับให้เหมาะสมกับเวลาแฝงแล้ว

นั่นเป็นเหตุผลที่เรานำเสนอโมเดลพื้นฐานเวอร์ชันต่างๆ เนื่องจากคุณอาจมี SLM ซึ่งเป็นโมเดลภาษาขนาดเล็กที่ดีกว่าสำหรับงานชุดใดชุดหนึ่ง และคุณต้องการโมเดลที่ใหญ่กว่าเพื่อความแม่นยำมากขึ้นในตอนท้าย แต่การผูกมัดสิ่งเหล่านี้ให้พอดีกับกรอบเวลาแฝงของคุณนั้นเป็นปัญหาที่เราแก้ไขมาตลอดหลายปีที่ผ่านมาสำหรับบริการแบบไฮเปอร์สเกลหรือบริการที่มีการจัดการจำนวนมาก พวกเขามีกรอบเวลาแฝงเหล่านี้ และหลายครั้งเมื่อคุณถามคำถามหรือค้นหา จริงๆ แล้วคำถามเหล่านั้นจะหมดไปและค่อยๆ ตอบคำถามไปหลายครั้ง ดังนั้นพวกเขาจึงมีสภาวะการแข่งขันมากมาย เช่น “กรอบเวลาแฝงของฉันสำหรับแต่ละส่วนเล็กๆ น้อยๆ ของการตอบสนองทั้งหมดคือเท่าไร” ใช่แล้ว เรามักจะมองสิ่งนั้นอยู่เสมอ

สำหรับประเด็นของคุณเกี่ยวกับฮาร์ดโค้ด ฉันเพิ่งพูดคุยกับลูกค้าเกี่ยวกับเรื่องนั้นในวันนี้ เราเป็นมากกว่าฮาร์ดโค้ด … คุณสามารถใช้ตัวจัดการบทสนทนาและมี if-then-else ได้ [แต่] การจัดการกฎนับพันนั้นเป็นไปไม่ได้เลยจริงๆ และนั่นคือเหตุผลที่เราชอบสิ่งต่างๆ เช่น ราวกั้น เนื่องจากราวกั้นเป็นตัวแทนของสิ่งทดแทนตัวจัดการบทสนทนาแบบคลาสสิก แทนที่จะพูดว่า “อย่าพูดถึงเบสบอล อย่าพูดถึงซอฟต์บอล อย่าพูดถึงฟุตบอล” และแยกรายการเหล่านั้นออกไป คุณก็แค่พูดว่า “อย่าพูดถึงกีฬา” และ LLM ก็รู้ว่ากีฬาคืออะไร การประหยัดเวลาและสามารถจัดการโค้ดนั้นได้ในภายหลังนั้นดีขึ้นมาก ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน