Βελτιστοποιήστε την απόδοση τιμής του LLM Inference στις GPU της NVIDIA χρησιμοποιώντας την ενσωμάτωση Amazon SageMaker με τις μικροϋπηρεσίες NVIDIA NIM

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

NVIDIA NIM m μικροϋπηρεσίες τώρα ενσωματωθεί με Amazon Sage Maker, επιτρέποντάς σας να αναπτύξετε κορυφαία μοντέλα μεγάλων γλωσσών (LLM) και να βελτιστοποιήσετε την απόδοση και το κόστος του μοντέλου. Μπορείτε να αναπτύξετε LLM τελευταίας τεχνολογίας σε λίγα λεπτά αντί για ημέρες χρησιμοποιώντας τεχνολογίες όπως π.χ NVIDIA TensorRT, NVIDIA TensorRT-LLM, να NVIDIA Triton Inference Server σε επείγουσες περιπτώσεις NVIDIA που φιλοξενούνται από το SageMaker.

NIM, μέρος του NVIDIA AI Enterprise πλατφόρμα λογισμικού που αναφέρεται στη λίστα Αγορά AWS, είναι ένα σύνολο μικροϋπηρεσιών συμπερασμάτων που φέρνουν τη δύναμη των LLM τελευταίας τεχνολογίας στις εφαρμογές σας, παρέχοντας δυνατότητες επεξεργασίας φυσικής γλώσσας (NLP) και κατανόησης, είτε αναπτύσσετε chatbots, συνοψίζετε έγγραφα ή εφαρμόζετε άλλα NLP- τροφοδοτούμενες εφαρμογές. Μπορείτε να χρησιμοποιήσετε προκατασκευασμένα κοντέινερ NVIDIA για να φιλοξενήσετε δημοφιλή LLM που είναι βελτιστοποιημένα για συγκεκριμένες GPU NVIDIA για γρήγορη ανάπτυξη ή να χρησιμοποιήσετε εργαλεία NIM για να δημιουργήσετε τα δικά σας κοντέινερ.

Σε αυτήν την ανάρτηση, παρέχουμε μια υψηλού επιπέδου εισαγωγή στο NIM και δείχνουμε πώς μπορείτε να το χρησιμοποιήσετε με το SageMaker.

Μια εισαγωγή στο NVIDIA NIM

Η NIM παρέχει βελτιστοποιημένους και προπαρασκευασμένους κινητήρες για μια ποικιλία δημοφιλών μοντέλων για συμπεράσματα. Αυτές οι μικροϋπηρεσίες υποστηρίζουν μια ποικιλία LLM, όπως το Llama 2 (7B, 13B και 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona και Code Llama 70B, εκτός συσκευασίας, χρησιμοποιώντας προ- χτισμένοι κινητήρες NVIDIA TensorRT προσαρμοσμένοι για συγκεκριμένες GPU της NVIDIA για μέγιστη απόδοση και χρήση. Αυτά τα μοντέλα επιμελούνται με τις βέλτιστες υπερπαραμέτρους για απόδοση φιλοξενίας μοντέλων για εύκολη ανάπτυξη εφαρμογών.

Εάν το μοντέλο σας δεν περιλαμβάνεται στο σύνολο των επιμελημένων μοντέλων της NVIDIA, η NIM προσφέρει βασικά βοηθητικά προγράμματα, όπως το Model Repo Generator, το οποίο διευκολύνει τη δημιουργία ενός μηχανισμού επιτάχυνσης TensorRT-LLM και ενός καταλόγου μοντέλων σε μορφή NIM μέσω ενός απλού αρχείου YAML. Επιπλέον, ένα ενσωματωμένο backend κοινότητας του vLLM παρέχει υποστήριξη για μοντέλα αιχμής και αναδυόμενες δυνατότητες που μπορεί να μην έχουν ενσωματωθεί άψογα στη βελτιστοποιημένη στοίβα TensorRT-LLM.

Εκτός από τη δημιουργία βελτιστοποιημένων LLM για συμπέρασμα, το NIM παρέχει προηγμένες τεχνολογίες φιλοξενίας, όπως βελτιστοποιημένες τεχνικές προγραμματισμού, όπως η ομαδοποίηση κατά τη διάρκεια της πτήσης, που μπορεί να αναλύσει τη συνολική διαδικασία δημιουργίας κειμένου για ένα LLM σε πολλαπλές επαναλήψεις στο μοντέλο. Με την ομαδοποίηση κατά τη διάρκεια της πτήσης, αντί να περιμένει να τελειώσει ολόκληρη η παρτίδα πριν προχωρήσετε στο επόμενο σύνολο αιτημάτων, ο χρόνος εκτέλεσης NIM εξάγει αμέσως τις ολοκληρωμένες ακολουθίες από την παρτίδα. Στη συνέχεια, ο χρόνος εκτέλεσης αρχίζει να εκτελεί νέα αιτήματα ενώ άλλα αιτήματα είναι ακόμα σε εξέλιξη, αξιοποιώντας με τον καλύτερο τρόπο τις υπολογιστικές παρουσίες και τις GPU σας.

Ανάπτυξη NIM στο SageMaker

Το NIM ενσωματώνεται με το SageMaker, επιτρέποντάς σας να φιλοξενήσετε τα LLM σας με βελτιστοποίηση απόδοσης και κόστους, ενώ επωφεληθείτε από τις δυνατότητες του SageMaker. Όταν χρησιμοποιείτε το NIM στο SageMaker, μπορείτε να χρησιμοποιήσετε δυνατότητες όπως η κλιμάκωση του αριθμού των παρουσιών για τη φιλοξενία του μοντέλου σας, η εκτέλεση μπλε/πράσινων αναπτύξεων και η αξιολόγηση του φόρτου εργασίας με τη χρήση δοκιμών σκιών—όλα με την καλύτερη στην κατηγορία παρατηρησιμότητα και παρακολούθηση με amazoncloudwatch.

Συμπέρασμα

Η χρήση NIM για την ανάπτυξη βελτιστοποιημένων LLM μπορεί να είναι μια εξαιρετική επιλογή τόσο για απόδοση όσο και για κόστος. Βοηθά επίσης να διευκολύνει την ανάπτυξη LLM. Στο μέλλον, το NIM θα επιτρέψει επίσης μεθόδους προσαρμογής του Parameter-Efficient Fine-Tuning (PEFT), όπως το LoRA και το P-tuning. Η NIM σχεδιάζει επίσης να έχει υποστήριξη LLM υποστηρίζοντας Triton Inference Server, TensorRT-LLM και backends vLLM.

Σας ενθαρρύνουμε να μάθετε περισσότερα σχετικά με τις μικροϋπηρεσίες NVIDIA και πώς να αναπτύξετε τα LLM σας χρησιμοποιώντας το SageMaker και να δοκιμάσετε τα οφέλη που έχετε στη διάθεσή σας. Το NIM είναι διαθέσιμο ως προσφορά επί πληρωμή ως μέρος της συνδρομής λογισμικού NVIDIA AI Enterprise διαθέσιμο στο AWS Marketplace.

Στο εγγύς μέλλον, θα δημοσιεύσουμε έναν αναλυτικό οδηγό για το NIM στο SageMaker.

Σχετικά με τους συγγραφείς

Βελτιστοποιήστε την τιμή-απόδοση των συμπερασμάτων LLM σε GPU της NVIDIA χρησιμοποιώντας την ενσωμάτωση του Amazon SageMaker με τις NVIDIA NIM Microservices | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Τζέιμς Παρκ είναι αρχιτέκτονας λύσεων στο Amazon Web Services. Συνεργάζεται με την Amazon.com για το σχεδιασμό, την κατασκευή και την ανάπτυξη τεχνολογικών λύσεων στο AWS και έχει ιδιαίτερο ενδιαφέρον για την τεχνητή νοημοσύνη και τη μηχανική μάθηση. Στον ελεύθερο χρόνο του απολαμβάνει να αναζητά νέους πολιτισμούς, νέες εμπειρίες και να ενημερώνεται για τις τελευταίες τάσεις της τεχνολογίας. Μπορείτε να τον βρείτε στο LinkedIn.

Saurabh Trikande είναι Ανώτερος Διευθυντής Προϊόντων για το Amazon SageMaker Inference. Είναι παθιασμένος με τη συνεργασία με πελάτες και παρακινείται από τον στόχο του εκδημοκρατισμού της μηχανικής μάθησης. Εστιάζει στις βασικές προκλήσεις που σχετίζονται με την ανάπτυξη πολύπλοκων εφαρμογών ML, μοντέλων ML πολλαπλών μισθωτών, βελτιστοποιήσεις κόστους και καθιστώντας την ανάπτυξη μοντέλων βαθιάς μάθησης πιο προσιτή. Στον ελεύθερο χρόνο του, ο Saurabh απολαμβάνει την πεζοπορία, μαθαίνει για καινοτόμες τεχνολογίες, ακολουθεί το TechCrunch και περνά χρόνο με την οικογένειά του.

Βελτιστοποιήστε την τιμή-απόδοση των συμπερασμάτων LLM σε GPU της NVIDIA χρησιμοποιώντας την ενσωμάτωση του Amazon SageMaker με τις NVIDIA NIM Microservices | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Τσινγκ Λαν είναι Μηχανικός Ανάπτυξης Λογισμικού στην AWS. Έχει εργαστεί σε πολλά προκλητικά προϊόντα στο Amazon, συμπεριλαμβανομένων λύσεων συμπερασμάτων ML υψηλής απόδοσης και συστήματος καταγραφής υψηλής απόδοσης. Η ομάδα του Qing κυκλοφόρησε με επιτυχία το πρώτο μοντέλο δισεκατομμυρίων παραμέτρων στο Amazon Advertising με πολύ χαμηλό λανθάνοντα χρόνο που απαιτείται. Ο Qing έχει εις βάθος γνώση σχετικά με τη βελτιστοποίηση της υποδομής και την επιτάχυνση Deep Learning.

Νικίλ Κουλκάρνι είναι ένας προγραμματιστής λογισμικού με το AWS Machine Learning, που εστιάζει στο να κάνει τους φόρτους εργασίας μηχανικής εκμάθησης πιο αποδοτικούς στο cloud και είναι συνδημιουργός των AWS Deep Learning Containers για εκπαίδευση και εξαγωγή συμπερασμάτων. Είναι παθιασμένος με τα κατανεμημένα συστήματα Deep Learning. Εκτός δουλειάς, του αρέσει να διαβάζει βιβλία, να ασχολείται με την κιθάρα και να φτιάχνει πίτσα.

Βελτιστοποιήστε την τιμή-απόδοση των συμπερασμάτων LLM σε GPU της NVIDIA χρησιμοποιώντας την ενσωμάτωση του Amazon SageMaker με τις NVIDIA NIM Microservices | Υπηρεσίες Ιστού Amazon PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Harish Tummalacherla είναι Μηχανικός Λογισμικού με την ομάδα Deep Learning Performance στο SageMaker. Εργάζεται στη μηχανική απόδοσης για την αποτελεσματική εξυπηρέτηση μοντέλων μεγάλων γλωσσών στο SageMaker. Στον ελεύθερο χρόνο του, του αρέσει το τρέξιμο, η ποδηλασία και η ορειβασία με σκι.

Eliuth Triana Isaza είναι Διευθυντής Σχέσεων Προγραμματιστή στη NVIDIA που εξουσιοδοτεί τα AI MLOps, DevOps, Επιστήμονες και τεχνικούς εμπειρογνώμονες AWS της Amazon να κυριαρχήσουν στη στοίβα υπολογιστών NVIDIA για την επιτάχυνση και τη βελτιστοποίηση μοντέλων Generative AI Foundation που εκτείνονται από την επιμέλεια δεδομένων, την εκπαίδευση GPU, την εξαγωγή συμπερασμάτων μοντέλων και την ανάπτυξη παραγωγής σε AWS GPU . Επιπλέον, ο Eliuth είναι παθιασμένος ποδηλάτης βουνού, σκιέρ, τένις και παίκτης πόκερ.

Τζιαόνγκ Λιου είναι αρχιτέκτονας λύσεων στην ομάδα του Cloud Service Provider της NVIDIA. Βοηθά τους πελάτες στην υιοθέτηση λύσεων μηχανικής μάθησης και τεχνητής νοημοσύνης που αξιοποιούν την επιτάχυνση της NVIDIA για την αντιμετώπιση των προκλήσεων εκπαίδευσης και συμπερασμάτων τους. Στον ελεύθερο χρόνο του, του αρέσει το origami, τα DIY projects και το μπάσκετ.

Kshitiz Gupta είναι αρχιτέκτονας λύσεων στην NVIDIA. Του αρέσει να εκπαιδεύει τους πελάτες cloud σχετικά με τις τεχνολογίες GPU AI που έχει να προσφέρει η NVIDIA και να τους βοηθά να επιταχύνουν τις εφαρμογές μηχανικής εκμάθησης και βαθιάς εκμάθησης. Εκτός δουλειάς, του αρέσει το τρέξιμο, η πεζοπορία και η παρακολούθηση της άγριας ζωής.