สัมภาษณ์กับ Nvidia Software Exec Kari Briski

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

สัมภาษณ์กับผู้บริหารซอฟต์แวร์ Nvidia Kari Briski PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สัมภาษณ์ การประชุมเทคโนโลยี GPU ของ Nvidia สิ้นสุดลงเมื่อสัปดาห์ที่แล้ว โดยนำเสนอชิป Blackwell ของบริษัท และความมหัศจรรย์ของ AI ที่อัดแน่นไปด้วยฮาร์ดแวร์ GPU ที่ซื้อมาอย่างมากมายซึ่งมีความหมาย

นั่นคือข่าวลือทั่วบริษัทว่าราคาหุ้นของบริษัทกำลังพุ่งสูงเป็นประวัติการณ์ โดยอิงจากแนวคิดที่ว่าความพยายามเชิงสร้างสรรค์หลายอย่างสามารถทำได้เร็วขึ้น หากไม่ดีขึ้นด้วยระบบอัตโนมัติที่เปิดใช้งานโดยโมเดลการเรียนรู้ของเครื่อง

ที่ยังคงมีการทดสอบในตลาด

จอร์จ ซานตายานา ครั้งหนึ่ง เขียน: “ผู้ที่จำอดีตไม่ได้ จะถูกประณามให้ทำซ้ำ” เป็นประโยคที่พูดซ้ำบ่อยๆ แต่การรำลึกถึงสิ่งต่างๆ ในอดีตไม่ได้ทำให้โมเดล AI แตกต่างออกไปจริงๆ พวกเขาจำอดีตได้ แต่พวกเขายังคงถูกประณามให้ทำซ้ำตามความต้องการในบางครั้งก็ไม่ถูกต้อง

ถึงกระนั้นก็ตาม หลายคนก็สาบานต่อ AI อันยิ่งใหญ่ โดยเฉพาะผู้ที่ขายฮาร์ดแวร์ AI หรือบริการคลาวด์ Nvidia และบริษัทอื่น ๆ กำลังวางเดิมพันครั้งใหญ่. ดังนั้น ลงทะเบียน เยี่ยมชมการประชุม GPU สั้นๆ เพื่อดูว่าปัญหาทั้งหมดเกี่ยวกับอะไร แน่นอนว่ามันไม่เกี่ยวกับมะนาวบาร์ที่เสิร์ฟในห้องจัดแสดงเมื่อวันพฤหัสบดี ซึ่งหลายแห่งยุติการเสนอขายต่อประชาชนครั้งแรกที่ยังสร้างไม่เสร็จในถังขยะบนพื้นโชว์

สิ่งที่น่าสนใจยิ่งกว่าคือการสนทนา ลงทะเบียน ได้ร่วมงานกับ Kari Briski รองประธานฝ่ายการจัดการผลิตภัณฑ์สำหรับชุดพัฒนาซอฟต์แวร์ AI และ HPC ที่ Nvidia เธอเป็นหัวหน้าฝ่ายการจัดการผลิตภัณฑ์ซอฟต์แวร์สำหรับโมเดลพื้นฐาน ไลบรารี SDK และไมโครเซอร์วิสที่เกี่ยวข้องกับการฝึกอบรมและการอนุมานของบริษัท เช่นเดียวกับที่เพิ่งประกาศใหม่ ส่วนต่างอัตราดอกเบี้ย ไมโครเซอร์วิสและเป็นที่ยอมรับที่ดีขึ้น เนโม กรอบการใช้งาน

ลงทะเบียน: บริษัทต่างๆ จะใช้ไมโครเซอร์วิสเหล่านี้อย่างไร ทั้งในระบบคลาวด์ และภายในองค์กร

บริสกี้: นั่นคือข้อดีจริงๆ ว่าทำไมเราถึงสร้าง NIM เป็นเรื่องตลกที่จะพูดว่า "NIM" แต่เราเริ่มต้นการเดินทางครั้งนี้เมื่อนานมาแล้ว เราทำงานโดยอนุมานมาตั้งแต่เริ่มต้น ฉันคิดว่าเป็น TensorRT 1.0 เมื่อเริ่มต้นปี 2016

ในช่วงหลายปีที่ผ่านมา เราได้เพิ่มกลุ่มการอนุมานของเรา โดยเรียนรู้เพิ่มเติมเกี่ยวกับปริมาณงานทุกประเภท โดยเริ่มจากคอมพิวเตอร์วิทัศน์และระบบและคำพูดของผู้แนะนำเชิงลึก การรู้จำเสียงพูดอัตโนมัติและการสังเคราะห์เสียงพูด และในปัจจุบันมีโมเดลภาษาขนาดใหญ่ เป็นสแต็กที่เน้นนักพัฒนาจริงๆ และตอนนี้องค์กรต่างๆ [ได้เห็น] OpenAI และ ChatGPT แล้ว พวกเขาเข้าใจถึงความจำเป็นที่จะต้องมีโมเดลภาษาขนาดใหญ่เหล่านี้ทำงานถัดจากข้อมูลองค์กรหรือในแอปพลิเคชันขององค์กร

ผู้ให้บริการคลาวด์โดยเฉลี่ยสำหรับบริการที่ได้รับการจัดการ พวกเขามีวิศวกรหลายร้อยคนที่ทำงานเกี่ยวกับการอนุมานและเทคนิคการปรับให้เหมาะสม รัฐวิสาหกิจไม่สามารถทำเช่นนั้นได้ พวกเขาจำเป็นต้องได้รับเวลาต่อมูลค่าทันที นั่นเป็นเหตุผลที่เราสรุปทุกสิ่งที่เราได้เรียนรู้ในช่วงหลายปีที่ผ่านมาด้วย TensorRT, โมเดลภาษาขนาดใหญ่, Triton Inference Server, API มาตรฐาน และการตรวจสุขภาพ [แนวคิดคือการ] สามารถสรุปทั้งหมดเพื่อให้คุณได้รับจากศูนย์ไปจนถึงจุดสิ้นสุดของโมเดลภาษาขนาดใหญ่ได้ภายในเวลาไม่ถึงห้านาที

[ในส่วนที่เกี่ยวกับศูนย์ข้อมูลภายในองค์กรและบนคลาวด์] ลูกค้าจำนวนมากของเราเป็นไฮบริดคลาวด์ พวกเขามีความต้องการด้านคอมพิวเตอร์ ดังนั้น แทนที่จะส่งข้อมูลไปยังบริการที่ได้รับการจัดการ พวกเขาสามารถเรียกใช้ไมโครเซอร์วิสใกล้กับข้อมูลของตน และเรียกใช้ได้ทุกที่ที่ต้องการ

ลงทะเบียน: ซอฟต์แวร์ของ Nvidia สำหรับ AI มีลักษณะอย่างไรในแง่ของภาษาการเขียนโปรแกรม? มันยังคงเป็น CUDA, Python, C และ C++ เป็นส่วนใหญ่หรือไม่ คุณกำลังมองหาที่อื่นเพื่อความรวดเร็วและประสิทธิภาพที่มากขึ้นหรือไม่?

บริสกี้: เราสำรวจอยู่เสมอว่านักพัฒนาใช้งานอยู่ที่ใด นั่นเป็นกุญแจสำคัญของเรามาโดยตลอด นับตั้งแต่ฉันเริ่มต้นที่ Nvidia ฉันก็ได้ทำงานเกี่ยวกับห้องสมุดคณิตศาสตร์แบบเร่งรัด ก่อนอื่นคุณต้องเขียนโปรแกรมใน CUDA เพื่อให้มีความเท่าเทียม จากนั้นเราก็มี C API และเรามี Python API ดังนั้นมันเป็นเรื่องเกี่ยวกับการนำแพลตฟอร์มไปทุกที่ที่นักพัฒนาอยู่ ขณะนี้ นักพัฒนาเพียงต้องการเข้าถึงจุดสิ้นสุด API ที่เรียบง่าย เช่น ด้วยคำสั่ง curl หรือคำสั่ง Python หรืออะไรที่คล้ายกัน ดังนั้นมันจึงต้องเรียบง่ายสุดๆ เพราะนั่นคือสิ่งที่เราจะพบปะกับนักพัฒนาในวันนี้

ลงทะเบียน: CUDA มีบทบาทสำคัญในการทำให้การคำนวณ GPU มีประสิทธิภาพอย่างเห็นได้ชัด Nvidia กำลังทำอะไรเพื่อพัฒนา CUDA ?

บริสกี้: CUDA เป็นรากฐานสำหรับ GPU ทั้งหมดของเรา เป็น GPU ที่เปิดใช้งาน CUDA และตั้งโปรแกรมได้ CUDA เมื่อไม่กี่ปีก่อน เราเรียกมันว่า CUDA-X เนื่องจากคุณมีภาษาเฉพาะโดเมนเหล่านี้ ดังนั้น หากคุณมีภาพทางการแพทย์ [ใบสมัคร] คุณก็จะมี cuCIM. หากคุณมีการรู้จำเสียงอัตโนมัติ คุณจะมีตัวถอดรหัสการค้นหาลำแสงแบบเร่ง CUDA ที่ส่วนท้ายของมัน ดังนั้นจึงมีทุกสิ่งที่เฉพาะเจาะจงเหล่านี้สำหรับปริมาณงานทุกประเภทที่ CUDA เร่งไว้ เราได้สร้างห้องสมุดพิเศษเหล่านี้ขึ้นมาตลอดหลายปีที่ผ่านมา CUDF และ คิวMLและลูกบาศ์ก-นี้-และ-นั้น ไลบรารี CUDA ทั้งหมดนี้เป็นรากฐานของสิ่งที่เราสร้างขึ้นในช่วงหลายปีที่ผ่านมา และตอนนี้เรากำลังสร้างสิ่งที่เหนือกว่านั้น

ลงทะเบียน: Nvidia มองการพิจารณาต้นทุนในแง่ของวิธีการออกแบบซอฟต์แวร์และฮาร์ดแวร์อย่างไร สำหรับ Nvidia AI Enterprise ราคา 4,500 ดอลลาร์ต่อ GPU ทุกปี ซึ่งถือว่ามาก

บริสกี้: ประการแรก สำหรับบริษัทขนาดเล็ก เรามีเสมอ จัดตั้งกองทุน โปรแกรม. เราทำงานร่วมกับลูกค้าอยู่เสมอ – ทดลองใช้งานฟรี 90 วัน มันมีค่าสำหรับคุณจริงหรือ? คุ้มจริงมั้ย? จากนั้น เพื่อลดต้นทุนของคุณเมื่อคุณซื้อผลิตภัณฑ์ดังกล่าว เราจะเพิ่มประสิทธิภาพซอฟต์แวร์ของเราอยู่เสมอ ดังนั้น หากคุณซื้อที่ 4,500 เหรียญสหรัฐต่อ GPU ต่อปีต่อใบอนุญาต และคุณกำลังใช้งาน A100 และคุณใช้งาน H100 พรุ่งนี้ ราคาก็จะเท่ากัน – ต้นทุนของคุณลดลง [สัมพันธ์กับปริมาณงานของคุณ] ดังนั้นเราจึงสร้างการเพิ่มประสิทธิภาพและต้นทุนรวมในการเป็นเจ้าของและประสิทธิภาพกลับคืนสู่ซอฟต์แวร์อยู่เสมอ

เมื่อเราคิดถึงทั้งการฝึกอบรมและการอนุมาน การฝึกอบรมอาจใช้เวลานานกว่านั้นเล็กน้อย แต่เรามีตัวกำหนดค่าอัตโนมัติเหล่านี้เพื่อให้สามารถพูดได้ว่า “คุณมีข้อมูลมากแค่ไหน คุณต้องการคอมพิวเตอร์จำนวนเท่าใด? คุณต้องการใช้เวลานานเท่าไหร่?” ดังนั้นคุณจึงสามารถใช้พื้นที่การประมวลผลน้อยลง แต่อาจใช้เวลานานกว่าในการฝึกอบรมโมเดลของคุณ … คุณต้องการฝึกอบรมโมเดลดังกล่าวภายในหนึ่งสัปดาห์หรือไม่ หรือคุณอยากจะฝึกมันภายในหนึ่งวัน? ดังนั้นคุณจึงสามารถแลกเปลี่ยนสิ่งเหล่านั้นได้

ลงทะเบียน: ในแง่ของปัญหาในปัจจุบัน มีอะไรที่คุณต้องการแก้ไขเป็นพิเศษ หรือมีความท้าทายทางเทคนิคที่คุณต้องการเอาชนะหรือไม่

บริสกี้: ตอนนี้มันเป็นการขับเคลื่อนด้วยเหตุการณ์ ผ้าขี้ริ้ว [ซึ่งเป็นวิธีการเสริมโมเดล AI ด้วยข้อมูลที่ดึงมาจากแหล่งภายนอก] องค์กรจำนวนมากกำลังคิดถึงพรอมต์แบบคลาสสิกเพื่อสร้างคำตอบ แต่จริงๆ แล้ว สิ่งที่เราต้องการทำคือ [เชื่อมโยง] ระบบกำเนิดใหม่ที่ดึงข้อมูลมาเสริมเข้าด้วยกันทั้งหมดเข้าด้วยกัน เพราะถ้าคุณคิดถึงคุณและงานที่คุณอาจต้องการทำให้สำเร็จ: “โอ้ ฉันต้องไปคุยกับทีมฐานข้อมูล และทีมฐานข้อมูลนั้นต้องไปคุยกับทีม Tableau พวกเขาต้องสร้างแดชบอร์ดให้ฉัน” และสิ่งเหล่านี้ทั้งหมดต้องเกิดขึ้นก่อนที่คุณจะทำงานให้สำเร็จได้ และมันก็เป็น RAG ที่ขับเคลื่อนด้วยเหตุการณ์แบบนั้น ฉันจะไม่พูดว่า RAG กำลังพูดคุยกับ RAG แต่โดยพื้นฐานแล้ว เจ้าหน้าที่ออกไปและทำงานหนักมากแล้วกลับมา และเรากำลังอยู่บนจุดสูงสุดของเรื่องนั้น ฉันคิดว่านั่นเป็นสิ่งที่ฉันตื่นเต้นมากที่จะได้เห็นในปี 2024

ลงทะเบียน: Nvidia dogfooding AI ของตัวเองหรือไม่? คุณพบว่า AI มีประโยชน์ภายในหรือไม่?

บริสกี้: จริงๆ แล้วเราเลิกกันแล้วเมื่อปีที่แล้ว เนื่องจากปี 2023 เป็นปีแห่งการสำรวจ มี 150 ทีมใน Nvidia ที่ฉันพบ อาจมีมากกว่านี้ และเราพยายามจะบอกว่า คุณใช้เครื่องมือของเราอย่างไร เป็นประเภทไหน ของกรณีการใช้งาน และเราเริ่มรวมการเรียนรู้ทั้งหมด เช่น จากดอกไม้นับพันที่บานสะพรั่ง และเราก็รวมการเรียนรู้ทั้งหมดเข้าด้วยกันเป็นแนวทางปฏิบัติที่ดีที่สุดไว้ในที่เดียว นั่นคือสิ่งที่เราปล่อยออกมาตามที่เราเรียกว่าจริงๆ ตัวอย่าง AI เจนเนอเรชั่น บน GitHub เพราะเราเพียงต้องการรวมแนวทางปฏิบัติที่ดีที่สุดทั้งหมดไว้ในที่เดียว

นั่นคือสิ่งที่เราทำในเชิงโครงสร้าง แต่เพื่อเป็นตัวอย่างที่ชัดเจน ฉันคิดว่าเราได้เขียนบทความดีๆ ชื่อนี้ขึ้นมา ชิปนีโมและจริงๆ แล้วทั้งหมดนี้เกี่ยวข้องกับ EDA, ทีมออกแบบ VLSI ของเรา และวิธีที่พวกเขาใช้โมเดลพื้นฐานและฝึกอบรมโมเดลโดยใช้ข้อมูลที่เป็นกรรมสิทธิ์ของเรา เรามีภาษาการเขียนโค้ดสำหรับ VLSI ของเราเอง ดังนั้นพวกเขาจึงเขียนโค้ด copilots [โมเดลการสร้างโค้ดโอเพ่นซอร์ส] เพื่อให้สามารถสร้างภาษาที่เป็นกรรมสิทธิ์ของเรา และเพื่อช่วยเพิ่มประสิทธิภาพการทำงานของวิศวกรหน้าใหม่ที่กำลังเข้ามาซึ่งไม่ค่อยรู้จักโค้ดการเขียนชิปออกแบบ VLSI ของเรา

และนั่นก็โดนใจลูกค้าทุกคน ดังนั้นหากคุณพูดคุยกับ SAP พวกเขาจะมี ABAP (Advanced Business Application Programming) ซึ่งเหมือนกับ SQL ที่เป็นกรรมสิทธิ์ในฐานข้อมูลของพวกเขา และฉันได้พูดคุยกับลูกค้าอีกสามคนที่มีภาษาที่เป็นกรรมสิทธิ์ต่างกัน แม้แต่ SQL ก็มีภาษาถิ่นประมาณหลายร้อยภาษา ดังนั้นความสามารถในการสร้างโค้ดจึงไม่ใช่กรณีการใช้งานที่ RAG สามารถแก้ไขได้ทันที ใช่ RAG ช่วยดึงเอกสารและตัวอย่างโค้ดบางส่วน แต่หากไม่ได้รับการฝึกฝนให้สร้างโทเค็นในภาษานั้น ก็ไม่สามารถสร้างโค้ดได้เพียงอย่างเดียว

ลงทะเบียน: เมื่อคุณดูโมเดลภาษาขนาดใหญ่และวิธีการเชื่อมโยงพวกมันเข้ากับแอปพลิเคชัน คุณกำลังคิดถึงเวลาแฝงที่อาจเกิดขึ้นและวิธีจัดการกับสิ่งนั้นหรือไม่ มีบางครั้งที่ฮาร์ดโค้ดแผนผังการตัดสินใจดูเหมือนว่ามันจะสมเหตุสมผลมากกว่าหรือไม่?

บริสกี้: คุณพูดถูก เมื่อคุณถามคำถามเฉพาะเจาะจงหรือแจ้งให้ทราบ แม้แต่คำถามเดียวก็อาจมีแบบจำลองห้าหรือเจ็ดแบบที่เริ่มต้นแล้วเพื่อให้คุณได้รับการเขียนใหม่และรั้วและตัวดึงข้อมูลและการจัดอันดับใหม่ทันที แล้วก็เครื่องกำเนิดไฟฟ้า นั่นเป็นเหตุผลว่าทำไม NIM จึงมีความสำคัญมาก เนื่องจากเราได้ปรับให้เหมาะสมกับเวลาแฝงแล้ว

นั่นเป็นเหตุผลที่เรานำเสนอโมเดลพื้นฐานเวอร์ชันต่างๆ เนื่องจากคุณอาจมี SLM ซึ่งเป็นโมเดลภาษาขนาดเล็กที่ดีกว่าสำหรับงานชุดใดชุดหนึ่ง และคุณต้องการโมเดลที่ใหญ่กว่าเพื่อความแม่นยำมากขึ้นในตอนท้าย แต่การผูกมัดสิ่งเหล่านี้ให้พอดีกับกรอบเวลาแฝงของคุณนั้นเป็นปัญหาที่เราแก้ไขมาตลอดหลายปีที่ผ่านมาสำหรับบริการแบบไฮเปอร์สเกลหรือบริการที่มีการจัดการจำนวนมาก พวกเขามีกรอบเวลาแฝงเหล่านี้ และหลายครั้งเมื่อคุณถามคำถามหรือค้นหา จริงๆ แล้วคำถามเหล่านั้นจะหมดไปและค่อยๆ ตอบคำถามไปหลายครั้ง ดังนั้นพวกเขาจึงมีสภาวะการแข่งขันมากมาย เช่น “กรอบเวลาแฝงของฉันสำหรับแต่ละส่วนเล็กๆ น้อยๆ ของการตอบสนองทั้งหมดคือเท่าไร” ใช่แล้ว เรามักจะมองสิ่งนั้นอยู่เสมอ

สำหรับประเด็นของคุณเกี่ยวกับฮาร์ดโค้ด ฉันเพิ่งพูดคุยกับลูกค้าเกี่ยวกับเรื่องนั้นในวันนี้ เราเป็นมากกว่าฮาร์ดโค้ด … คุณสามารถใช้ตัวจัดการบทสนทนาและมี if-then-else ได้ [แต่] การจัดการกฎนับพันนั้นเป็นไปไม่ได้เลยจริงๆ และนั่นคือเหตุผลที่เราชอบสิ่งต่างๆ เช่น ราวกั้น เนื่องจากราวกั้นเป็นตัวแทนของสิ่งทดแทนตัวจัดการบทสนทนาแบบคลาสสิก แทนที่จะพูดว่า “อย่าพูดถึงเบสบอล อย่าพูดถึงซอฟต์บอล อย่าพูดถึงฟุตบอล” และแยกรายการเหล่านั้นออกไป คุณก็แค่พูดว่า “อย่าพูดถึงกีฬา” และ LLM ก็รู้ว่ากีฬาคืออะไร การประหยัดเวลาและสามารถจัดการโค้ดนั้นได้ในภายหลังนั้นดีขึ้นมาก ®

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://go.theregister.com/feed/www.theregister.com/2024/03/26/nvdiai_kari_briski_interview/

ประทับเวลา: March 26, 2024

ประทับเวลา: เมษายน 25, 2024

สัมภาษณ์ผู้บริหารซอฟต์แวร์ Nvidia Kari Briski

เผยแพร่ซ้ำโดยเพลโต

เพิ่มเติมจาก ลงทะเบียน

ทำไมวันนี้ Tesla ถึงล่ม – การโทร Q4 ที่วุ่นวายและไร้คำแนะนำ

ซูเปอร์มาร์เก็ตญี่ปุ่นเฝ้าดูคุณจับจ่าย AI แนะนำสิ่งต่างๆ

Microsoft ทุ่มเงิน 3.2 พันล้านยูโรให้กับฝ่ายปฏิบัติการ AI ในเยอรมนี

นอกเหนือจากการโฆษณาเกินจริง AI สัญญาว่าจะยกระดับการวิจัยทางวิทยาศาสตร์

หน่วยงานเฝ้าระวังความเป็นส่วนตัวเรียกร้องให้บริษัทเลิกใช้ซอฟต์แวร์ AI วิเคราะห์อารมณ์

ขอให้โชคดีในการรับความช่วยเหลือจาก CoPilot ที่มีความสามารถ Microsoft MVP กล่าว

ขณะนี้นักวิจัย AI กำลังตรวจสอบเพื่อนร่วมงานของตนด้วยความช่วยเหลือจาก AI

DoE ได้รับสมองในกล่อง neuromorphic ล่าสุดของ Intel

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้