Πώς το Amazon Search εκτελεί έργα μεγάλης κλίμακας, ανθεκτικά στη μηχανική εκμάθηση με το Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Εάν έχετε αναζητήσει ένα αντικείμενο για αγορά στο amazon.com, έχετε χρησιμοποιήσει τις υπηρεσίες Αναζήτησης Amazon. Στην Αναζήτηση Amazon, είμαστε υπεύθυνοι για την εμπειρία αναζήτησης και ανακάλυψης για τους πελάτες μας σε όλο τον κόσμο. Στο παρασκήνιο, ευρετηριάζουμε τον παγκόσμιο κατάλογο προϊόντων μας, αναπτύσσουμε στόλους AWS με μεγάλη κλίμακα και χρησιμοποιούμε προηγμένη μηχανική εκμάθηση (ML) για να ταιριάξουμε σχετικά και ενδιαφέροντα προϊόντα με το ερώτημα κάθε πελάτη.

Οι επιστήμονές μας εκπαιδεύουν τακτικά χιλιάδες μοντέλα ML για να βελτιώσουν την ποιότητα των αποτελεσμάτων αναζήτησης. Η υποστήριξη πειραματισμών μεγάλης κλίμακας παρουσιάζει τις δικές της προκλήσεις, ειδικά όταν πρόκειται για τη βελτίωση της παραγωγικότητας των επιστημόνων που εκπαιδεύουν αυτά τα μοντέλα ML.

Σε αυτήν την ανάρτηση, μοιραζόμαστε πώς δημιουργήσαμε ένα σύστημα διαχείρισης Amazon Sage Maker θέσεις εργασίας εκπαίδευσης, επιτρέποντας στους επιστήμονές μας να πυροδοτήσουν και να ξεχάσουν χιλιάδες πειράματα και να ειδοποιηθούν όταν χρειάζεται. Μπορούν πλέον να επικεντρωθούν σε εργασίες υψηλής αξίας και στην επίλυση αλγοριθμικών σφαλμάτων, εξοικονομώντας το 60% του χρόνου τους.

Η πρόκληση

Στην Αναζήτηση Amazon, οι επιστήμονές μας επιλύουν προβλήματα ανάκτησης πληροφοριών πειραματιζόμενοι και εκτελώντας πολλές εργασίες εκπαίδευσης μοντέλων ML στο SageMaker. Για να συμβαδίζουμε με την καινοτομία της ομάδας μας, η πολυπλοκότητα των μοντέλων μας και ο αριθμός των εργασιών εκπαίδευσης έχουν αυξηθεί με την πάροδο του χρόνου. Οι εργασίες εκπαίδευσης του SageMaker μάς επιτρέπουν να μειώσουμε τον χρόνο και το κόστος για την εκπαίδευση και τον συντονισμό αυτών των μοντέλων σε κλίμακα, χωρίς την ανάγκη διαχείρισης υποδομής.

Όπως όλα σε τέτοια έργα ML μεγάλης κλίμακας, οι εργασίες κατάρτισης μπορεί να αποτύχουν λόγω διαφόρων παραγόντων. Αυτή η ανάρτηση εστιάζει σε ελλείψεις χωρητικότητας και αστοχίες λόγω σφαλμάτων αλγορίθμου.

Σχεδιάσαμε μια αρχιτεκτονική με σύστημα διαχείρισης εργασιών για την ανοχή και τη μείωση της πιθανότητας αποτυχίας μιας εργασίας λόγω μη διαθεσιμότητας χωρητικότητας ή σφαλμάτων αλγορίθμου. Επιτρέπει στους επιστήμονες να απολύουν και να ξεχνούν χιλιάδες εργασίες κατάρτισης, να τις ξαναδοκιμάζουν αυτόματα σε παροδική αποτυχία και να ειδοποιούνται για επιτυχία ή αποτυχία, εάν χρειάζεται.

Επισκόπηση λύσεων

Στο παρακάτω διάγραμμα λύσης, χρησιμοποιούμε τις εργασίες εκπαίδευσης του SageMaker ως βασική ενότητα της λύσης μας. Δηλαδή, μια εργασία αντιπροσωπεύει την εκπαίδευση από άκρο σε άκρο ενός μοντέλου ML.

Η ροή εργασίας υψηλού επιπέδου αυτής της λύσης είναι η εξής:

Οι επιστήμονες επικαλούνται ένα API για να υποβάλουν μια νέα εργασία στο σύστημα.
Η εργασία έχει καταχωρηθεί στο New κατάσταση σε χώρο αποθήκευσης μεταδεδομένων.
Ένας προγραμματιστής εργασιών ανακτά ασύγχρονα New εργασίες από το χώρο αποθήκευσης μεταδεδομένων, αναλύει τα στοιχεία τους και προσπαθεί να ξεκινήσει εργασίες εκπαίδευσης του SageMaker για καθεμία. Η κατάστασή τους αλλάζει σε Launched or Failed ανάλογα με την επιτυχία.
Μια οθόνη ελέγχει την πρόοδο των εργασιών σε τακτά χρονικά διαστήματα και τις αναφέρει Completed, Failed, ή InProgress κατάσταση στο χώρο αποθήκευσης μεταδεδομένων.
Ενεργοποιείται ένας ειδοποιητής για αναφορά Completed και Failed θέσεις εργασίας στους επιστήμονες.

Η διατήρηση του ιστορικού εργασιών στο κατάστημα μεταδεδομένων επιτρέπει επίσης στην ομάδα μας να διεξάγει ανάλυση τάσεων και να παρακολουθεί την πρόοδο του έργου.

Αυτή η λύση προγραμματισμού εργασιών χρησιμοποιεί χαλαρά συζευγμένα στοιχεία χωρίς διακομιστή με βάση AWS Lambda, Amazon DynamoDB, Υπηρεσία απλών ειδοποιήσεων Amazon (Amazon SNS), και Amazon EventBridge. Αυτό εξασφαλίζει οριζόντια επεκτασιμότητα, επιτρέποντας στους επιστήμονές μας να ξεκινήσουν χιλιάδες θέσεις εργασίας με ελάχιστη επιχειρησιακή προσπάθεια. Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική χωρίς διακομιστή.

Αρχιτεκτονική επισκόπηση της λύσης μας

Στις επόμενες ενότητες, θα αναφερθούμε σε περισσότερες λεπτομέρειες σχετικά με κάθε υπηρεσία και τα στοιχεία της.

DynamoDB ως χώρος αποθήκευσης μεταδεδομένων για εκτελούμενες εργασίες

Η ευκολία χρήσης και η επεκτασιμότητα του DynamoDB το κατέστησαν φυσική επιλογή τη διατήρηση των μεταδεδομένων εργασιών σε έναν πίνακα DynamoDB. Αυτή η λύση αποθηκεύει πολλά χαρακτηριστικά εργασιών που υποβάλλονται από επιστήμονες, βοηθώντας έτσι στην παρακολούθηση προόδου και στην ενορχήστρωση ροής εργασιών. Τα πιο σημαντικά χαρακτηριστικά είναι τα εξής:

JobId – Ένα μοναδικό αναγνωριστικό εργασίας. Αυτό μπορεί να δημιουργηθεί αυτόματα ή να παρέχεται από τον επιστήμονα.
Κατάσταση Εργασίας – Η κατάσταση της εργασίας.
JobArgs – Άλλα επιχειρήματα που απαιτούνται για τη δημιουργία μιας εργασίας εκπαίδευσης, όπως η διαδρομή εισόδου στο Amazon S3, το URI εικόνας εκπαίδευσης και άλλα. Για μια πλήρη λίστα των παραμέτρων που απαιτούνται για τη δημιουργία μιας εργασίας εκπαίδευσης, ανατρέξτε στο CreateTrainingJob.

Λάμδα για τη λογική του πυρήνα

Χρησιμοποιούμε τρία με βάση το δοχείο Λειτουργίες Lambda για να ενορχηστρώσει τη ροή εργασίας της εργασίας:

Υποβολή εργασίας – Αυτή η λειτουργία επικαλείται οι επιστήμονες όταν πρέπει να ξεκινήσουν νέες θέσεις εργασίας. Λειτουργεί ως API για απλότητα. Μπορείτε επίσης να το αντιμετωπίσετε Amazon API Gateway, αν χρειαστεί. Αυτή η συνάρτηση καταγράφει τις εργασίες στον πίνακα DynamoDB.
Εκκίνηση εργασιών – Αυτή η λειτουργία ανακτάται περιοδικά New εργασίες από τον πίνακα DynamoDB και τις εκκινεί χρησιμοποιώντας το SageMaker CreateTrainingJob εντολή. Επαναλαμβάνει παροδικές βλάβες, όπως π.χ ResourceLimitExceeded και CapacityError, για να οργανώσει την ανθεκτικότητα στο σύστημα. Στη συνέχεια ενημερώνει την κατάσταση της εργασίας ως Launched or Failed ανάλογα με την επιτυχία.
Εργασίες παρακολούθησης – Αυτή η λειτουργία παρακολουθεί περιοδικά την πρόοδο της εργασίας χρησιμοποιώντας το DescribeTrainingJob εντολή και ενημερώνει τον πίνακα DynamoDB ανάλογα. Δημοσκοπεί Failed εργασίες από τα μεταδεδομένα και αξιολογεί εάν θα πρέπει να υποβληθούν εκ νέου ή να επισημανθούν ως οριστικά αποτυχημένες. Δημοσιεύει επίσης μηνύματα ειδοποίησης προς τους επιστήμονες όταν η εργασία τους φτάσει σε τερματική κατάσταση.

EventBridge για προγραμματισμό

Χρησιμοποιούμε το EventBridge για να εκτελέσουμε τις λειτουργίες Launch Jobs και Monitor Jobs Lambda σε ένα χρονοδιάγραμμα. Για περισσότερες πληροφορίες, ανατρέξτε στο Φροντιστήριο: Προγραμματίστε λειτουργίες AWS Lambda χρησιμοποιώντας το EventBridge.

Εναλλακτικά, μπορείτε να χρησιμοποιήσετε Ροές Amazon DynamoDB για τα εναύσματα. Για περισσότερες πληροφορίες, βλ DynamoDB Streams και AWS Lambda.

Ειδοποιήσεις με το Amazon SNS

Οι επιστήμονές μας είναι ειδοποιούνται μέσω email χρησιμοποιώντας το Amazon SNS όταν οι εργασίες τους φτάσουν σε τερματική κατάσταση (Failed μετά από μέγιστο αριθμό επαναλήψεων), Completed, ή Stopped.

Συμπέρασμα

Σε αυτήν την ανάρτηση, μοιραστήκαμε πώς η Αναζήτηση Amazon προσθέτει ανθεκτικότητα στους φόρτους εργασίας εκπαίδευσης μοντέλων ML, προγραμματίζοντάς τους και δοκιμάζοντάς τους ξανά για ελλείψεις χωρητικότητας ή σφάλματα αλγορίθμου. Χρησιμοποιήσαμε τις συναρτήσεις Lambda σε συνδυασμό με έναν πίνακα DynamoDB ως κεντρικό χώρο αποθήκευσης μεταδεδομένων για να ενορχηστρώσουμε ολόκληρη τη ροή εργασίας.

Ένα τέτοιο σύστημα προγραμματισμού επιτρέπει στους επιστήμονες να υποβάλουν τις εργασίες τους και να τις ξεχάσουν. Αυτό εξοικονομεί χρόνο και τους επιτρέπει να επικεντρωθούν στη σύνταξη καλύτερων μοντέλων.

Για να προχωρήσετε περαιτέρω στις μαθησίες σας, μπορείτε να επισκεφθείτε Φοβερό SageMaker και βρείτε σε ένα μόνο μέρος, όλους τους σχετικούς και ενημερωμένους πόρους που απαιτούνται για την εργασία με το SageMaker.

Σχετικά με τους Συγγραφείς

Λουτσάο Γουάνγκ είναι Μηχανικός Λογισμικού στο Amazon Search. Εστιάζει σε επεκτάσιμα κατανεμημένα συστήματα και εργαλεία αυτοματισμού στο cloud για να επιταχύνει τον ρυθμό της επιστημονικής καινοτομίας για εφαρμογές Μηχανικής Μάθησης.

Ishan Bhatt είναι Μηχανικός Λογισμικού στην ομάδα Amazon Prime Video. Εργάζεται κυρίως στον χώρο των MLOps και έχει εμπειρία στην κατασκευή προϊόντων MLOps τα τελευταία 4 χρόνια χρησιμοποιώντας το Amazon SageMaker.

Abhinandan Patni είναι Ανώτερος Μηχανικός Λογισμικού στο Amazon Search. Εστιάζει στην κατασκευή συστημάτων και εργαλείων για κλιμακούμενη κατανεμημένη εκπαίδευση βαθιάς μάθησης και συμπεράσματα σε πραγματικό χρόνο.

Eiman Elnahrawy είναι Κύριος Μηχανικός Λογισμικού στο Amazon Search που ηγείται των προσπαθειών για την επιτάχυνση, την κλιμάκωση και την αυτοματοποίηση της Μηχανικής Μάθησης. Η τεχνογνωσία της εκτείνεται σε πολλούς τομείς, όπως η Μηχανική Μάθηση, τα Κατανεμημένα Συστήματα και η Εξατομίκευση.

Πώς το Amazon Search εκτελεί έργα μεγάλης κλίμακας, ανθεκτικά στη μηχανική μάθηση με το Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Σοφιανή Χαμίτη είναι εξειδικευμένος αρχιτέκτονας λύσεων AI / ML στο AWS. Βοηθά τους πελάτες σε όλες τις βιομηχανίες να επιταχύνουν το ταξίδι AI / ML βοηθώντας τους να δημιουργήσουν και να λειτουργήσουν λύσεις μηχανικής μάθησης από άκρο σε άκρο.

Ρότι Ντάτα Δρ Romi Datta είναι Ανώτερος Διευθυντής Διαχείρισης Προϊόντων στην ομάδα Amazon SageMaker που είναι υπεύθυνος για την εκπαίδευση, την επεξεργασία και το κατάστημα χαρακτηριστικών. Βρίσκεται στην AWS για περισσότερα από 4 χρόνια, κατέχοντας αρκετούς ηγετικούς ρόλους διαχείρισης προϊόντων σε SageMaker, S3 και IoT. Πριν από την AWS εργάστηκε σε διάφορους ρόλους διαχείρισης προϊόντων, μηχανικής και επιχειρησιακής ηγεσίας στην IBM, την Texas Instruments και τη Nvidia. Έχει MS και Ph.D. στην Ηλεκτρολογία και Μηχανική Υπολογιστών από το Πανεπιστήμιο του Τέξας στο Ώστιν, και MBA από το Πανεπιστήμιο του Σικάγο Booth School of Business.

RJ είναι μηχανικός στην ομάδα Search M5 που ηγείται των προσπαθειών για τη δημιουργία συστημάτων βαθιάς μάθησης μεγάλης κλίμακας για εκπαίδευση και εξαγωγή συμπερασμάτων. Εκτός δουλειάς εξερευνά διάφορες κουζίνες φαγητού και παίζει σπορ με ρακέτα.

Σφραγίδα ώρας: Οκτώβριος 13, 2022Οκτώβριος 14, 2022

Σφραγίδα ώρας: 6 Νοεμβρίου 2023

Πώς το Amazon Search εκτελεί έργα μεγάλης κλίμακας, ανθεκτικά στη μηχανική εκμάθηση με το Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Η πρόκληση

Επισκόπηση λύσεων

DynamoDB ως χώρος αποθήκευσης μεταδεδομένων για εκτελούμενες εργασίες

Λάμδα για τη λογική του πυρήνα

EventBridge για προγραμματισμό

Ειδοποιήσεις με το Amazon SNS

Συμπέρασμα

Σχετικά με τους Συγγραφείς

Περισσότερα από Μηχανική εκμάθηση AWS

Φιλοξενήστε μοντέλα μετασχηματιστών Hugging Face χρησιμοποιώντας το Amazon SageMaker Serverless Inference

Ενεργοποιήστε την ταχύτερη εκπαίδευση με την παράλληλη βιβλιοθήκη δεδομένων Amazon SageMaker | Υπηρεσίες Ιστού της Amazon

Μετακινήστε τα μοντέλα Amazon SageMaker Autopilot ML από τον πειραματισμό στην παραγωγή χρησιμοποιώντας το Amazon SageMaker Pipelines

Αποκτήστε άνεση στο όχημα χρησιμοποιώντας εξατομικευμένη μηχανική εκμάθηση και το Amazon SageMaker

Ενεργοποιήστε την πλήρως ομομορφική κρυπτογράφηση με τα τελικά σημεία του Amazon SageMaker για ασφαλή εξαγωγή συμπερασμάτων σε πραγματικό χρόνο

Αναπτύξτε μεγάλα μοντέλα στο Amazon SageMaker χρησιμοποιώντας παράλληλη εξαγωγή συμπερασμάτων μοντέλων DJLServing και DeepSpeed

Ενδεικτικά σημειωματάρια στο Amazon SageMaker JumpStart

Επιλύστε αποτελεσματικά ζητήματα σύγκλισης κατανεμημένων προπονήσεων με το Amazon SageMaker Hyperband Automatic Model Tuning | Υπηρεσίες Ιστού της Amazon

Ανακοινώνουμε την ενημερωμένη σύνδεση Microsoft OneDrive (V2) για το Amazon Kendra

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός