Είμαστε ενθουσιασμένοι που το ανακοινώσαμε Amazon SageMaker JumpStart μπορεί τώρα να μεταδώσει τις απαντήσεις συμπερασμάτων του μοντέλου μεγάλης γλώσσας (LLM). Token streaming σάς επιτρέπει να βλέπετε την έξοδο απόκρισης του μοντέλου καθώς δημιουργείται αντί να περιμένετε τα LLM να ολοκληρώσουν τη δημιουργία απόκρισης προτού διατεθεί για χρήση ή προβολή. Η δυνατότητα ροής στο SageMaker JumpStart μπορεί να σας βοηθήσει να δημιουργήσετε εφαρμογές με καλύτερη εμπειρία χρήστη, δημιουργώντας μια αντίληψη χαμηλής καθυστέρησης στον τελικό χρήστη.
Σε αυτήν την ανάρτηση, περιγράφουμε τον τρόπο ανάπτυξης και ροής της απάντησης από το a Μοντέλο Falcon 7B Instruct τελικό σημείο
Κατά τη στιγμή της σύνταξης αυτού του άρθρου, τα ακόλουθα LLM που είναι διαθέσιμα στο SageMaker JumpStart υποστηρίζουν ροή:
- Mistral AI 7B, Mistral AI 7B Instruct
- Falcon 180B, Falcon 180B Chat
- Falcon 40B, Falcon 40B Instruct
- Falcon 7B, Falcon 7B Instruct
- Rinna Japanese GPT NeoX 4B Instruction PPO
- Rinna Japanese GPT NeoX 3.6B Instruction PPO
Για να ελέγξετε για ενημερώσεις στη λίστα μοντέλων που υποστηρίζουν ροή στο SageMaker JumpStart, αναζητήστε το "huggingface-llm" στο Ενσωματωμένοι αλγόριθμοι με προεκπαιδευμένο πίνακα μοντέλων.
Σημειώστε ότι μπορείτε να χρησιμοποιήσετε το λειτουργία ροής of Amazon Sage Maker φιλοξενία εκτός συσκευασίας για οποιοδήποτε μοντέλο που αναπτύσσεται χρησιμοποιώντας το SageMaker TGI Deep Learning Container (DLC) όπως περιγράφεται στο Ανακοινώνουμε την κυκλοφορία των νέων κοντέινερ Hugging Face LLM Inference στο Amazon SageMaker.
Μοντέλα θεμελίωσης στο SageMaker
Το SageMaker JumpStart παρέχει πρόσβαση σε μια σειρά μοντέλων από δημοφιλείς κόμβους μοντέλων, συμπεριλαμβανομένων των Hugging Face, PyTorch Hub και TensorFlow Hub, τα οποία μπορείτε να χρησιμοποιήσετε στη ροή εργασιών ανάπτυξης ML στο SageMaker. Οι πρόσφατες εξελίξεις στην ML οδήγησαν σε μια νέα κατηγορία μοντέλων που είναι γνωστά ως μοντέλα θεμελίωσης, τα οποία συνήθως εκπαιδεύονται σε δισεκατομμύρια παραμέτρους και μπορούν να προσαρμοστούν σε μια ευρεία κατηγορία περιπτώσεων χρήσης, όπως η σύνοψη κειμένων, η δημιουργία ψηφιακής τέχνης και η μετάφραση γλώσσας. Επειδή αυτά τα μοντέλα είναι δαπανηρά στην εκπαίδευση, οι πελάτες θέλουν να χρησιμοποιήσουν τα υπάρχοντα προεκπαιδευμένα μοντέλα θεμελίωσης και να τα προσαρμόσουν όπως απαιτείται, αντί να εκπαιδεύσουν οι ίδιοι αυτά τα μοντέλα. Το SageMaker παρέχει μια επιμελημένη λίστα μοντέλων από τα οποία μπορείτε να επιλέξετε στην κονσόλα SageMaker.
Μπορείτε πλέον να βρείτε μοντέλα θεμελίωσης από διαφορετικούς παρόχους μοντέλων στο SageMaker JumpStart, επιτρέποντάς σας να ξεκινήσετε γρήγορα με τα μοντέλα θεμελίωσης. Το SageMaker JumpStart προσφέρει μοντέλα θεμελίωσης που βασίζονται σε διαφορετικές εργασίες ή παρόχους μοντέλων και μπορείτε εύκολα να ελέγξετε τα χαρακτηριστικά του μοντέλου και τους όρους χρήσης. Μπορείτε επίσης να δοκιμάσετε αυτά τα μοντέλα χρησιμοποιώντας ένα δοκιμαστικό γραφικό στοιχείο διεπαφής χρήστη. Όταν θέλετε να χρησιμοποιήσετε ένα μοντέλο θεμελίωσης σε κλίμακα, μπορείτε να το κάνετε χωρίς να φύγετε από το SageMaker χρησιμοποιώντας προκατασκευασμένα σημειωματάρια από παρόχους μοντέλων. Επειδή τα μοντέλα φιλοξενούνται και αναπτύσσονται σε AWS, πιστεύετε ότι τα δεδομένα σας, είτε χρησιμοποιούνται για αξιολόγηση είτε για χρήση του μοντέλου σε κλίμακα, δεν θα κοινοποιηθούν σε τρίτα μέρη.
Token streaming
Token streaming επιτρέπει την επιστροφή της απόκρισης συμπερασμάτων καθώς δημιουργείται από το μοντέλο. Με αυτόν τον τρόπο, μπορείτε να δείτε την απόκριση που δημιουργείται σταδιακά αντί να περιμένετε να τελειώσει το μοντέλο πριν παράσχετε την πλήρη απόκριση. Η ροή μπορεί να βοηθήσει στη δημιουργία καλύτερης εμπειρίας χρήστη, επειδή μειώνει την αντίληψη του λανθάνοντος χρόνου για τον τελικό χρήστη. Μπορείτε να αρχίσετε να βλέπετε την έξοδο καθώς δημιουργείται και επομένως μπορείτε να σταματήσετε τη δημιουργία νωρίς εάν η έξοδος δεν φαίνεται χρήσιμη για τους σκοπούς σας. Η ροή μπορεί να κάνει μεγάλη διαφορά, ειδικά για μακροχρόνια ερωτήματα, επειδή μπορείτε να αρχίσετε να βλέπετε εξόδους καθώς δημιουργείται, κάτι που μπορεί να δημιουργήσει μια αντίληψη χαμηλότερου λανθάνοντος χρόνου, παρόλο που ο λανθάνοντας χρόνος από άκρο σε άκρο παραμένει ο ίδιος.
Από τη σύνταξη αυτού του άρθρου, μπορείτε να χρησιμοποιήσετε τη ροή στο SageMaker JumpStart για μοντέλα που χρησιμοποιούν το Hugging Face LLM Συμπεράσματα δημιουργίας κειμένου DLC.
Απόκριση με No Steaming | Απάντηση με ροή |
Επισκόπηση λύσεων
Για αυτήν την ανάρτηση, χρησιμοποιούμε το μοντέλο Falcon 7B Instruct για να παρουσιάσουμε τη δυνατότητα ροής SageMaker JumpStart.
Μπορείτε να χρησιμοποιήσετε τον ακόλουθο κώδικα για να βρείτε άλλα μοντέλα στο SageMaker JumpStart που υποστηρίζουν ροή:
Λαμβάνουμε τα ακόλουθα αναγνωριστικά μοντέλων που υποστηρίζουν ροή:
Προϋποθέσεις
Πριν από την εκτέλεση του φορητού υπολογιστή, απαιτούνται ορισμένα αρχικά βήματα για τη ρύθμιση. Εκτελέστε τις παρακάτω εντολές:
Αναπτύξτε το μοντέλο
Ως πρώτο βήμα, χρησιμοποιήστε το SageMaker JumpStart για να αναπτύξετε ένα μοντέλο Falcon 7B Instruct. Για πλήρεις οδηγίες, ανατρέξτε στο Το μοντέλο βάσης Falcon 180B από την TII είναι πλέον διαθέσιμο μέσω του Amazon SageMaker JumpStart. Χρησιμοποιήστε τον ακόλουθο κώδικα:
Ερώτηση για το τελικό σημείο και την απάντηση ροής
Στη συνέχεια, δημιουργήστε ένα ωφέλιμο φορτίο για να καλέσετε το αναπτυγμένο τελικό σημείο σας. Είναι σημαντικό ότι το ωφέλιμο φορτίο πρέπει να περιέχει το ζεύγος κλειδιού/τιμής "stream": True
. Αυτό υποδεικνύει στον διακομιστή συμπερασμάτων δημιουργίας κειμένου να δημιουργήσει μια απόκριση ροής.
Προτού υποβάλετε ερώτημα στο τελικό σημείο, πρέπει να δημιουργήσετε έναν επαναλήπτη που να μπορεί να αναλύει την απάντηση ροής bytes από το τελικό σημείο. Τα δεδομένα για κάθε διακριτικό παρέχονται ως ξεχωριστή γραμμή στην απόκριση, επομένως αυτός ο επαναλήπτης επιστρέφει ένα διακριτικό κάθε φορά που προσδιορίζεται μια νέα γραμμή στο buffer ροής. Αυτός ο επαναλήπτης έχει σχεδιαστεί ελάχιστα και ίσως θέλετε να προσαρμόσετε τη συμπεριφορά του για την περίπτωση χρήσης σας. για παράδειγμα, ενώ αυτός ο επαναλήπτης επιστρέφει συμβολοσειρές διακριτικών, τα δεδομένα γραμμής περιέχουν άλλες πληροφορίες, όπως πιθανότητες καταγραφής διακριτικών, που θα μπορούσαν να είναι ενδιαφέρουσες.
Τώρα μπορείτε να χρησιμοποιήσετε το Boto3 invoke_endpoint_with_response_stream
API στο τελικό σημείο που δημιουργήσατε και ενεργοποιήστε τη ροή επαναλαμβάνοντας πάνω από ένα TokenIterator
παράδειγμα:
Καθορισμός κενού end
παράμετρος στο print
η λειτουργία θα ενεργοποιήσει μια οπτική ροή χωρίς εισαγωγή νέων χαρακτήρων γραμμής. Αυτό παράγει την ακόλουθη έξοδο:
Μπορείτε να χρησιμοποιήσετε αυτόν τον κωδικό σε ένα σημειωματάριο ή σε άλλες εφαρμογές όπως το Streamlit ή το Gradio για να δείτε τη ροή σε δράση και την εμπειρία που παρέχει στους πελάτες σας.
εκκαθάριση
Τέλος, θυμηθείτε να καθαρίσετε το αναπτυγμένο μοντέλο και το τελικό σημείο για να αποφύγετε επιπλέον κόστος:
Συμπέρασμα
Σε αυτήν την ανάρτηση, σας δείξαμε πώς να χρησιμοποιήσετε τη λειτουργία ροής που κυκλοφόρησε πρόσφατα στο SageMaker JumpStart. Ελπίζουμε ότι θα χρησιμοποιήσετε τη δυνατότητα ροής διακριτικών για να δημιουργήσετε διαδραστικές εφαρμογές που απαιτούν χαμηλό λανθάνοντα χρόνο για καλύτερη εμπειρία χρήστη.
Σχετικά με τους συγγραφείς
Rachna Chadha είναι ένας κύριος αρχιτέκτονας λύσεων AI/ML σε στρατηγικούς λογαριασμούς στο AWS. Η Rachna είναι αισιόδοξη που πιστεύει ότι η ηθική και υπεύθυνη χρήση της τεχνητής νοημοσύνης μπορεί να βελτιώσει την κοινωνία στο μέλλον και να φέρει οικονομική και κοινωνική ευημερία. Στον ελεύθερο χρόνο της, στη Ράχνα αρέσει να περνά χρόνο με την οικογένειά της, να κάνει πεζοπορία και να ακούει μουσική.
Δόκτωρ Kyle Ulrich είναι Εφαρμοσμένος Επιστήμονας με το Ενσωματωμένοι αλγόριθμοι Amazon SageMaker ομάδα. Τα ερευνητικά του ενδιαφέροντα περιλαμβάνουν κλιμακωτούς αλγόριθμους μηχανικής μάθησης, όραση υπολογιστή, χρονοσειρές, μη παραμετρικές Μπεϋζιανές και διεργασίες Gauss. Το διδακτορικό του είναι από το Πανεπιστήμιο Duke και έχει δημοσιεύσει εργασίες στα NeurIPS, Cell και Neuron.
Δρ Ashish Khetan είναι Ανώτερος Εφαρμοσμένος Επιστήμονας με ενσωματωμένους αλγόριθμους του Amazon SageMaker και βοηθά στην ανάπτυξη αλγορίθμων μηχανικής μάθησης. Πήρε το διδακτορικό του από το Πανεπιστήμιο του Illinois Urbana-Champaign. Είναι ενεργός ερευνητής στη μηχανική μάθηση και στα στατιστικά συμπεράσματα και έχει δημοσιεύσει πολλές εργασίες σε συνέδρια NeurIPS, ICML, ICLR, JMLR, ACL και EMNLP.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoData.Network Vertical Generative Ai. Ενδυναμώστε τον εαυτό σας. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- PlatoESG. Ανθρακας, Cleantech, Ενέργεια, Περιβάλλον, Ηλιακός, Διαχείριση των αποβλήτων. Πρόσβαση εδώ.
- PlatoHealth. Ευφυΐα βιοτεχνολογίας και κλινικών δοκιμών. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/stream-large-language-model-responses-in-amazon-sagemaker-jumpstart/
- :έχει
- :είναι
- $UP
- 1
- 10
- 100
- 12
- 13
- 14
- 19
- 7
- 8
- a
- ΠΛΗΡΟΦΟΡΙΕΣ
- πρόσβαση
- Λογαριασμοί
- Ενέργειες
- ενεργός
- προσθέτω
- Πρόσθετος
- προκαταβολές
- συμβουλές
- AI
- AI / ML
- αλγόριθμοι
- επιτρέπει
- Επίσης
- Amazon
- Amazon Sage Maker
- Amazon SageMaker JumpStart
- Amazon υπηρεσίες Web
- an
- και
- Ανακοινώστε
- κάθε
- api
- εφαρμογές
- εφαρμοσμένος
- ΕΙΝΑΙ
- Τέχνη
- AS
- At
- διαθέσιμος
- αποφύγετε
- AWS
- βασίζονται
- Bayesian
- BE
- επειδή
- πριν
- συμπεριφορά
- είναι
- πιστεύει
- Καλύτερα
- Μεγάλος
- δισεκατομμύρια
- σώμα
- Κουτί
- φέρω
- ρυθμιστικό
- χτίζω
- ενσωματωμένο
- αλλά
- by
- CAN
- ικανότητα
- περίπτωση
- περιπτώσεις
- κατηγορία
- χαρακτηριστικά
- χαρακτήρες
- έλεγχος
- Επιλέξτε
- τάξη
- καθαρός
- πελάτης
- κωδικός
- πλήρης
- συγκρότημα
- υπολογιστή
- Computer Vision
- συνέδρια
- πρόξενος
- κατασκευάσει
- περιέχουν
- Δοχείο
- Εμπορευματοκιβώτια
- Περιέχει
- περιεχόμενο
- Δικαστικά έξοδα
- θα μπορούσε να
- δημιουργία
- δημιουργήθηκε
- δημιουργία
- CSS
- επιμέλεια
- Πελάτες
- ημερομηνία
- μειώνεται
- βαθύς
- βαθιά μάθηση
- παρατάσσω
- αναπτυχθεί
- περιγράφεται
- Υπηρεσίες
- σχεδιασμένα
- σχεδιαστής
- Προσδιορίστε
- ανάπτυξη
- Εργολάβος
- Ανάπτυξη
- διαφορά
- διαφορετικές
- ψηφιακό
- ψηφιακής τέχνης
- Display
- do
- τομέα
- Όνομα Χώρου
- Δούκας
- πανεπιστήμιο του Δούκα
- κάθε
- Νωρίς
- εύκολα
- Οικονομικός
- ενεργοποιήσετε
- ενεργοποίηση
- από άκρη σε άκρη
- Τελικό σημείο
- Κινητήρες
- εξασφαλίζω
- ειδικά
- ηθικά
- αξιολογώντας
- Even
- παράδειγμα
- ενθουσιασμένοι
- υφιστάμενα
- ακριβά
- εμπειρία
- Πρόσωπο
- οικογένεια
- Χαρακτηριστικό
- Φίλτρα
- Εύρεση
- φινίρισμα
- Όνομα
- Εξής
- Για
- Θεμέλιο
- Πλαίσιο
- από
- πλήρη
- λειτουργία
- μελλοντικός
- γενικά
- παράγουν
- παράγεται
- παραγωγής
- γενεά
- παίρνω
- δεδομένου
- Στόχοι
- πήρε
- καθοδηγήσει
- Έχω
- he
- βοήθεια
- χρήσιμο
- βοηθά
- αυτήν
- του
- ελπίζω
- φιλοξενείται
- φιλοξενία
- Πως
- Πώς να
- HTML
- HTTPS
- Hub
- κόμβους
- Πρόσωπο αγκαλιάς
- i
- προσδιορίζονται
- ids
- if
- Ιλλινόις
- εισαγωγή
- το σημαντικότερο
- βελτίωση
- in
- περιλαμβάνουν
- Συμπεριλαμβανομένου
- υποδηλώνει
- πληροφορίες
- αρχικός
- είσοδοι
- εγκαθιστώ
- παράδειγμα
- αντί
- οδηγίες
- διαδραστικό
- τόκος
- συμφέροντα
- IT
- ΤΟΥ
- Ιαπωνικά
- το JavaScript
- json
- Διατήρηση
- γνωστός
- Kyle
- Γλώσσα
- large
- Αφάνεια
- ξεκινήσει
- ξεκίνησε
- μάθηση
- αφήνοντας
- Μου αρέσει
- συμπαθεί
- γραμμή
- Λιστα
- Ακούγοντας
- LLM
- κούτσουρο
- κοιτάζοντας
- Χαμηλός
- χαμηλότερα
- μηχανή
- μάθηση μηχανής
- που
- διατηρήσουν
- κάνω
- πολοί
- Ενδέχεται..
- ενδέχεται να
- ML
- μοντέλο
- μοντέλα
- Μουσική
- όνομα
- Ανάγκη
- που απαιτούνται
- Νέα
- πρόσφατα
- Όχι.
- σημειωματάριο
- τώρα
- of
- προσφορές
- on
- διαδικτυακά (online)
- Βελτιστοποίηση
- or
- ΑΛΛΑ
- έξω
- παραγωγή
- εξόδους
- επί
- ζεύγος
- χαρτιά
- παράμετρος
- παράμετροι
- μέρη
- αντίληψη
- phd
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Δημοφιλής
- Θέση
- Predictor
- Κύριος
- διαδικασια μας
- Διεργασίες
- παράγει
- δεόντως
- ευημερία
- παρέχεται
- προμηθευτής
- Παρόχους υπηρεσιών
- παρέχει
- χορήγηση
- δημοσιεύθηκε
- σκοπός
- σκοποί
- pytorch
- ερωτήματα
- γρήγορα
- σειρά
- μάλλον
- πρόσφατος
- παραπέμπω
- τακτικά
- θυμάμαι
- απαιτείται
- έρευνα
- ερευνητής
- Υποστηρικτικό υλικό
- απάντησης
- απαντήσεις
- υπεύθυνος
- απόδοση
- Επιστροφές
- ανασκόπηση
- Αύξηση
- τρέξιμο
- τρέξιμο
- σοφός
- ίδιο
- επεκτάσιμη
- Κλίμακα
- Επιστήμονας
- Αναζήτηση
- Οι μηχανές αναζήτησης
- δείτε
- βλέποντας
- Επιδιώξτε
- ΕΑΥΤΟΣ
- αρχαιότερος
- ξεχωριστό
- Σειρές
- διακομιστής
- Υπηρεσίες
- setup
- Shared
- θα πρέπει να
- βιτρίνα
- έδειξε
- ομαλά
- So
- Μ.Κ.Δ
- Κοινωνία
- λύση
- μερικοί
- Δαπάνες
- Εκκίνηση
- ξεκίνησε
- στατιστικός
- Βήμα
- Βήματα
- στάση
- Στρατηγική
- μετάδοση
- ροής
- τέτοιος
- υποστήριξη
- Στήριξη
- Έργο
- εργασίες
- πρότυπα
- tensorflow
- όροι
- δοκιμή
- κείμενο
- από
- ότι
- Η
- Η γραμμή
- Τους
- τους
- Εκεί.
- επομένως
- Αυτοί
- Τρίτος
- τρίτους
- αυτό
- αν και?
- Μέσω
- ώρα
- Χρονική σειρά
- προς την
- ένδειξη
- Τρένο
- εκπαιδευμένο
- Μετάφραση
- αληθής
- Εμπιστευθείτε
- προσπαθώ
- tutorials
- συνήθως
- ui
- πανεπιστήμιο
- Ενημέρωση
- ενημερώσεις
- Χρήση
- χρήση
- περίπτωση χρήσης
- μεταχειρισμένος
- Χρήστες
- Η εμπειρία χρήστη
- χρησιμοποιώντας
- χρησιμοποιώ
- μέσω
- όραμα
- περιμένετε
- Αναμονή
- walk
- θέλω
- Τρόπος..
- we
- ιστός
- διαδικτυακές υπηρεσίες
- Ιστοσελίδα : www.example.gr
- πότε
- αν
- Ποιό
- ενώ
- Ο ΟΠΟΊΟΣ
- ευρύς
- θα
- με
- εντός
- χωρίς
- ροής εργασίας
- εργαζόμενος
- γραφή
- Εσείς
- Σας
- zephyrnet