Nvidia: Di masa depan, perangkat lunak hanyalah kumpulan LLM

Nvidia: Di masa depan, perangkat lunak hanyalah kumpulan LLM

Nvidia: Di masa depan, perangkat lunak hanyalah kumpulan LLM PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Terlepas dari penggunaan model bahasa besar (LLM) untuk membantu menulis kode, CEO Nvidia Jensen Huang percaya bahwa di masa depan, perangkat lunak perusahaan hanya akan menjadi kumpulan bot obrolan yang dirangkai untuk menyelesaikan tugas tersebut.

โ€œTidak mungkin Anda akan menulisnya dari awal atau menulis sejumlah besar kode Python atau semacamnya,โ€ katanya di atas panggung selama GTC. intisari Senin. โ€œKemungkinan besar Anda akan membentuk tim AI.โ€

Tim AI ini, jelas Jensen, mungkin menyertakan model yang dirancang untuk memecah dan mendelegasikan permintaan ke berbagai model lainnya. Beberapa model ini mungkin dilatih untuk memahami layanan bisnis seperti SAP atau Service Now, sementara model lainnya mungkin melakukan analisis numerik pada data yang disimpan dalam database vektor. Data ini kemudian dapat digabungkan dan disajikan kepada pengguna akhir dengan model lain.

โ€œKami bisa mendapatkan laporan setiap hari atau Anda tahu, laporan paling penting yang ada hubungannya dengan rencana pembangunan, atau perkiraan, atau peringatan pelanggan, atau database bug atau apa pun yang terjadi,โ€ jelasnya.

Untuk menyatukan semua model ini, Nvidia mengambil satu halaman dari buku Docker dan telah membuat runtime container untuk AI.

Dijuluki Nvidia Inference Microservices, atau disingkat NIM, ini pada dasarnya adalah gambar kontainer yang berisi kedua model, apakah itu sumber terbuka atau kepemilikan, beserta semua dependensi yang diperlukan untuk menjalankannya. Model dalam container ini kemudian dapat diterapkan di sejumlah runtime apa pun, termasuk node Kubernetes yang dipercepat Nvidia.

โ€œAnda dapat menerapkannya di infrastruktur kami yang disebut DGX Cloud, atau Anda dapat menerapkannya di lokasi, atau Anda dapat menerapkannya di mana pun Anda suka. Setelah Anda mengembangkannya, itu bisa Anda bawa ke mana saja,โ€ kata Jensen.

Tentu saja, Anda harus berlangganan suite AI Enterprise Nvidia terlebih dahulu, yang harganya tidak murah yaitu $4,500/tahun per GPU atau $1/jam per GPU di cloud. Strategi penetapan harga ini tampaknya memberi insentif pada sistem dengan kinerja lebih tinggi dan lebih padat secara umum karena biayanya sama terlepas dari apakah Anda menggunakan L40 atau B100s.

Jika gagasan untuk memasukkan beban kerja yang dipercepat GPU ke dalam container terdengar familiar, ini bukanlah ide baru bagi Nvidia. Akselerasi CUDA telah terjadi didukung pada berbagai runtime container, termasuk Docker, Podman, Containerd, atau CRI-O selama bertahun-tahun, dan sepertinya Container Runtime Nvidia tidak akan berhasil.

Proposisi nilai di balik NIM tampaknya adalah bahwa Nvidia akan menangani pengemasan dan optimalisasi model-model ini sehingga mereka memiliki versi CUDA, Triton Inference Server, atau TensorRT LLM yang tepat, yang diperlukan untuk mendapatkan kinerja terbaik dari model-model tersebut.

Argumennya adalah jika Nvidia merilis pembaruan yang secara dramatis meningkatkan kinerja inferensi jenis model tertentu, memanfaatkan fungsi tersebut hanya perlu menghapus gambar NIM terbaru.

Selain optimasi model perangkat keras tertentu, Nvidia juga berupaya untuk memungkinkan komunikasi yang konsisten antar container, sehingga mereka dapat mengobrol satu sama lain, melalui panggilan API.

Seperti yang kami pahami, panggilan API yang digunakan oleh berbagai model AI yang ada di pasaran saat ini tidak selalu konsisten sehingga lebih mudah untuk merangkai beberapa model dan model lainnya mungkin memerlukan pekerjaan tambahan.

Meminjamkan pengetahuan institusional ke model tujuan umum

Siapa pun yang telah menggunakan chatbot AI akan tahu bahwa meskipun mereka biasanya cukup baik dalam menjawab pertanyaan pengetahuan umum, mereka tidak selalu paling dapat diandalkan untuk permintaan yang tidak jelas atau teknis.

Jensen menyoroti fakta ini dalam pidatonya. Ditanya tentang program internal yang digunakan dalam Nvidia, model bahasa besar Meta Llama 2 70B secara mengejutkan memberikan definisi untuk istilah yang tidak terkait.

Alih-alih mencoba membuat perusahaan melatih model mereka sendiri โ€“ sesuatu yang akan menjual banyak GPU tetapi akan sangat membatasi pasar yang dapat ditangani โ€“ Nvidia telah mengembangkan alat untuk menyempurnakan NIM-nya dengan data dan proses pelanggan.

โ€œKami memiliki layanan bernama NeMo Microservices yang membantu Anda mengkurasi data, menyiapkan data sehingga Anda dapatโ€ฆ menggunakan AI ini. Anda menyempurnakannya dan kemudian Anda membatasinya; Anda kemudian dapat mengevaluasiโ€ฆ kinerjanya dibandingkan dengan contoh lainnya,โ€ jelas Huang.

Dia juga berbicara tentang layanan NeMo Retriever Nvidia yang didasarkan pada konsep penggunaan retrieval augmented generation (RAG) untuk memunculkan informasi yang modelnya belum dilatih secara khusus.

Idenya di sini adalah dokumen, proses, dan data lainnya dapat dimuat ke dalam database vektor yang terhubung ke model. Berdasarkan kueri, model kemudian dapat mencari database tersebut, mengambil, dan meringkas informasi yang relevan.

Model NIM dan NeMo Retriever untuk mengintegrasikan RAG telah tersedia sekarang, sementara NeMo Microservices masih dalam akses awal. ยฎ

Stempel Waktu:

Lebih dari Pendaftaran