Nvidia: Στο μέλλον το λογισμικό είναι απλώς μια συλλογή από LLM

Nvidia: Στο μέλλον το λογισμικό είναι απλώς μια συλλογή από LLM

Nvidia: Στο μέλλον, το λογισμικό είναι απλώς μια συλλογή LLMs PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ο Διευθύνων Σύμβουλος της Nvidia, Jensen Huang, πιστεύει ότι στο μέλλον, το εταιρικό λογισμικό θα είναι απλώς μια συλλογή ρομπότ συνομιλίας που θα συνδυάζονται μεταξύ τους για να ολοκληρώσουν την εργασία, χωρίς να χρησιμοποιεί μεγάλα μοντέλα γλώσσας (LLM) για να βοηθήσει στη σύνταξη κώδικα.

"Είναι απίθανο να το γράψετε από την αρχή ή να γράψετε ένα ολόκληρο μάτσο κώδικα Python ή κάτι παρόμοιο", είπε στη σκηνή κατά τη διάρκεια του GTC του. νότα μουσικής Δευτέρα. "Είναι πολύ πιθανό να συγκεντρώσετε μια ομάδα AI."

Αυτή η ομάδα τεχνητής νοημοσύνης, εξηγεί ο Jensen, μπορεί να περιλαμβάνει ένα μοντέλο σχεδιασμένο να αναλύει και να αναθέτει ένα αίτημα σε διάφορα άλλα μοντέλα. Ορισμένα από αυτά τα μοντέλα ενδέχεται να είναι εκπαιδευμένα στην κατανόηση επιχειρηματικών υπηρεσιών όπως το SAP ή το Service Now, ενώ άλλα μπορεί να εκτελούν αριθμητική ανάλυση σε δεδομένα που είναι αποθηκευμένα σε μια διανυσματική βάση δεδομένων. Αυτά τα δεδομένα μπορούν στη συνέχεια να συνδυαστούν και να παρουσιαστούν στον τελικό χρήστη από ένα ακόμη μοντέλο.

«Μπορούμε να λαμβάνουμε μια αναφορά κάθε μέρα ή ξέρετε, στην αρχή της ώρας που έχει να κάνει με ένα σχέδιο κατασκευής, ή κάποια πρόβλεψη, ή κάποια ειδοποίηση πελατών, ή κάποια βάση δεδομένων σφαλμάτων ή οτιδήποτε άλλο συμβαίνει», εξήγησε.

Για να συνδέσει όλα αυτά τα μοντέλα μαζί, η Nvidia βγάζει μια σελίδα από το βιβλίο του Docker και έχει δημιουργήσει έναν χρόνο εκτέλεσης κοντέινερ για AI.

Με την ονομασία Nvidia Inference Microservices, ή NIM για συντομία, αυτές είναι ουσιαστικά εικόνες κοντέινερ που περιέχουν τόσο το μοντέλο, είτε είναι ανοιχτού κώδικα είτε ιδιόκτητο, μαζί με όλες τις εξαρτήσεις που είναι απαραίτητες για την εκτέλεσή του. Αυτά τα μοντέλα με κοντέινερ μπορούν στη συνέχεια να αναπτυχθούν σε οποιονδήποτε αριθμό χρόνων εκτέλεσης, συμπεριλαμβανομένων των κόμβων Kubernetes που έχουν επιταχυνθεί από την Nvidia.

«Μπορείτε να το αναπτύξετε στην υποδομή μας που ονομάζεται DGX Cloud, ή μπορείτε να το αναπτύξετε on prem ή μπορείτε να το αναπτύξετε οπουδήποτε θέλετε. Μόλις το αναπτύξετε, είναι δικό σας να το πάτε οπουδήποτε», είπε ο Jensen.

Φυσικά, θα χρειαστείτε πρώτα μια συνδρομή στη σουίτα AI Enterprise της Nvidia, η οποία δεν είναι ακριβώς φθηνή με 4,500 $/έτος ανά GPU ή 1 $/ώρα ανά GPU στο cloud. Αυτή η στρατηγική τιμολόγησης φαίνεται να δίνει κίνητρο σε πιο πυκνά συστήματα υψηλότερης απόδοσης γενικά, καθώς κοστίζει το ίδιο ανεξάρτητα από το αν τρέχετε σε L40 ή Β100.

Αν η ιδέα της αποθήκευσης φόρτων εργασίας με επιτάχυνση GPU σας φαίνεται γνωστή, αυτή δεν είναι ακριβώς μια νέα ιδέα για τη Nvidia. Η επιτάχυνση CUDA ήταν υποστηρίζονται σε μια μεγάλη ποικιλία χρόνων εκτέλεσης κοντέινερ, συμπεριλαμβανομένων των Docker, Podman, Containerd ή CRI-O για χρόνια, και δεν φαίνεται ότι το Container Runtime της Nvidia δεν πάει πουθενά.

Η πρόταση αξίας πίσω από το NIM φαίνεται να είναι ότι η Nvidia θα χειριστεί τη συσκευασία και τη βελτιστοποίηση αυτών των μοντέλων, ώστε να έχουν τη σωστή έκδοση του CUDA, του Triton Inference Server ή του TensorRT LLM, που είναι απαραίτητη για την καλύτερη απόδοση από αυτά.

Το επιχείρημα είναι ότι εάν η Nvidia κυκλοφορεί μια ενημέρωση που ενισχύει δραματικά την απόδοση συμπερασμάτων ορισμένων τύπων μοντέλων, η αξιοποίηση αυτής της λειτουργικότητας θα απαιτούσε απλώς την αφαίρεση της πιο πρόσφατης εικόνας NIM.

Εκτός από τις βελτιστοποιήσεις μοντέλων για συγκεκριμένο υλικό, η Nvidia εργάζεται επίσης για την ενεργοποίηση συνεπών επικοινωνιών μεταξύ κοντέινερ, ώστε να μπορούν να συνομιλούν μεταξύ τους, μέσω κλήσεων API.

Όπως καταλαβαίνουμε, οι κλήσεις API που χρησιμοποιούνται από τα διάφορα μοντέλα τεχνητής νοημοσύνης στην αγορά σήμερα δεν είναι πάντα συνεπείς, με αποτέλεσμα να είναι ευκολότερο να συνδυάζονται ορισμένα μοντέλα και ενώ άλλα μπορεί να απαιτούν πρόσθετη εργασία.

Δανεισμός θεσμικής γνώσης σε μοντέλα γενικού σκοπού

Όποιος έχει χρησιμοποιήσει ένα chatbot τεχνητής νοημοσύνης θα γνωρίζει ότι ενώ είναι συνήθως αρκετά καλοί με ερωτήσεις γενικών γνώσεων, δεν είναι πάντα οι πιο αξιόπιστοι με ασαφή ή τεχνικά αιτήματα.

Ο Jensen τόνισε αυτό το γεγονός κατά τη διάρκεια της κεντρικής ομιλίας του. Ερωτηθείς σχετικά με ένα εσωτερικό πρόγραμμα που χρησιμοποιείται στη Nvidia, το μοντέλο μεγάλης γλώσσας Llama 2 70B της Meta παρείχε χωρίς έκπληξη τον ορισμό ενός άσχετου όρου.

Αντί να προσπαθεί να πείσει τις επιχειρήσεις να εκπαιδεύσουν τα δικά τους μοντέλα - κάτι που θα πουλούσε πολλές GPU αλλά θα περιόριζε σημαντικά τη διευθυνσιοδοτούμενη αγορά - η Nvidia έχει αναπτύξει εργαλεία για να συντονίζει τα NIM της με τα δεδομένα και τις διαδικασίες πελατών.

«Έχουμε μια υπηρεσία που ονομάζεται NeMo Microservices που σας βοηθά να επιμεληθείτε τα δεδομένα, να προετοιμάσετε τα δεδομένα έτσι ώστε να μπορείτε… να επιβιβαστείτε σε αυτό το AI. Το συντονίζεις και μετά το προστατεύεις. Στη συνέχεια, μπορείτε να αξιολογήσετε… την απόδοσή του σε σχέση με άλλα παραδείγματα», εξήγησε ο Huang.

Μίλησε επίσης για την υπηρεσία NeMo Retriever της Nvidia, η οποία βασίζεται στην ιδέα της χρήσης επαυξημένης γενιάς ανάκτησης (RAG) για την εμφάνιση πληροφοριών στις οποίες το μοντέλο δεν έχει εκπαιδευτεί ειδικά.

Η ιδέα εδώ είναι ότι έγγραφα, διεργασίες και άλλα δεδομένα μπορούν να φορτωθούν σε μια διανυσματική βάση δεδομένων που είναι συνδεδεμένη με το μοντέλο. Με βάση ένα ερώτημα, το μοντέλο μπορεί στη συνέχεια να αναζητήσει τη βάση δεδομένων, να ανακτήσει και να συνοψίσει τις σχετικές πληροφορίες.

Τα μοντέλα NIM και το NeMo Retriever για την ενσωμάτωση RAG είναι διαθέσιμα τώρα, ενώ το NeMo Microservices βρίσκεται σε πρώιμη πρόσβαση. ®

Σφραγίδα ώρας:

Περισσότερα από Το μητρώο