Αυτή η ανάρτηση συνυπογράφεται από τους Jyoti Sharma και Sharmo Sarkar από το Vericast.
Για οποιοδήποτε πρόβλημα μηχανικής μάθησης (ML), ο επιστήμονας δεδομένων ξεκινά δουλεύοντας με δεδομένα. Αυτό περιλαμβάνει τη συλλογή, την εξερεύνηση και την κατανόηση των επιχειρηματικών και τεχνικών πτυχών των δεδομένων, μαζί με την αξιολόγηση τυχόν χειρισμών που μπορεί να χρειαστούν για τη διαδικασία κατασκευής του μοντέλου. Μια πτυχή αυτής της προετοιμασίας δεδομένων είναι η μηχανική χαρακτηριστικών.
Μηχανική χαρακτηριστικών αναφέρεται στη διαδικασία κατά την οποία οι σχετικές μεταβλητές προσδιορίζονται, επιλέγονται και χειρίζονται για να μετατρέψουν τα ακατέργαστα δεδομένα σε πιο χρήσιμες και χρησιμοποιήσιμες μορφές για χρήση με τον αλγόριθμο ML που χρησιμοποιείται για την εκπαίδευση ενός μοντέλου και την εκτέλεση συμπερασμάτων σε σχέση με αυτό. Ο στόχος αυτής της διαδικασίας είναι να αυξήσει την απόδοση του αλγορίθμου και το προκύπτον προγνωστικό μοντέλο. Η διαδικασία μηχανικής χαρακτηριστικών περιλαμβάνει διάφορα στάδια, συμπεριλαμβανομένης της δημιουργίας χαρακτηριστικών, του μετασχηματισμού δεδομένων, της εξαγωγής χαρακτηριστικών και της επιλογής χαρακτηριστικών.
Η δημιουργία μιας πλατφόρμας για γενικευμένη μηχανική χαρακτηριστικών είναι μια κοινή εργασία για τους πελάτες που χρειάζονται να παράγουν πολλά μοντέλα ML με διαφορετικά σύνολα δεδομένων. Αυτό το είδος πλατφόρμας περιλαμβάνει τη δημιουργία μιας προγραμματικά καθοδηγούμενης διαδικασίας για την παραγωγή οριστικών, σχεδιασμένων δεδομένων με χαρακτηριστικά έτοιμα για εκπαίδευση μοντέλων με μικρή ανθρώπινη παρέμβαση. Ωστόσο, η γενίκευση της μηχανικής χαρακτηριστικών είναι πρόκληση. Κάθε επιχειρηματικό πρόβλημα είναι διαφορετικό, κάθε σύνολο δεδομένων είναι διαφορετικό, οι όγκοι δεδομένων ποικίλλουν πάρα πολύ από πελάτη σε πελάτη και η ποιότητα των δεδομένων και συχνά η ιδιότητα μιας συγκεκριμένης στήλης (στην περίπτωση των δομημένων δεδομένων) μπορεί να διαδραματίσουν σημαντικό ρόλο στην πολυπλοκότητα της μηχανικής χαρακτηριστικών επεξεργάζομαι, διαδικασία. Επιπλέον, η δυναμική φύση των δεδομένων ενός πελάτη μπορεί επίσης να οδηγήσει σε μεγάλη διακύμανση του χρόνου επεξεργασίας και των πόρων που απαιτούνται για τη βέλτιστη ολοκλήρωση της μηχανικής των χαρακτηριστικών.
Πελάτης AWS Vericast είναι μια εταιρεία λύσεων μάρκετινγκ που λαμβάνει αποφάσεις βάσει δεδομένων για την ενίσχυση της απόδοσης επένδυσης μάρκετινγκ για τους πελάτες της. Η εσωτερική πλατφόρμα μηχανικής εκμάθησης της Vericast που βασίζεται σε σύννεφο, που βασίζεται στη διαδικασία CRISP-ML(Q), χρησιμοποιεί διάφορες υπηρεσίες AWS, όπως Amazon Sage Maker, Επεξεργασία Amazon SageMaker, AWS Lambda, να Λειτουργίες βημάτων AWS, για να παράγει τα καλύτερα δυνατά μοντέλα που είναι προσαρμοσμένα στα δεδομένα του συγκεκριμένου πελάτη. Αυτή η πλατφόρμα στοχεύει στην αποτύπωση της επαναληψιμότητας των βημάτων που συνεπάγονται τη δημιουργία διαφόρων ροών εργασίας ML και τη ομαδοποίηση τους σε τυπικές γενικευμένες ενότητες ροής εργασίας εντός της πλατφόρμας.
Σε αυτήν την ανάρτηση, μοιραζόμαστε τον τρόπο με τον οποίο η Vericast βελτιστοποίησε τη μηχανική λειτουργιών χρησιμοποιώντας την επεξεργασία SageMaker.
Επισκόπηση λύσεων
Η Πλατφόρμα Μηχανικής Εκμάθησης της Vericast βοηθά στην ταχύτερη ανάπτυξη νέων επιχειρηματικών μοντέλων που βασίζονται σε υπάρχουσες ροές εργασίας ή στην ταχύτερη ενεργοποίηση υπαρχόντων μοντέλων για νέους πελάτες. Για παράδειγμα, ένα μοντέλο που προβλέπει την τάση άμεσης αλληλογραφίας είναι αρκετά διαφορετικό από ένα μοντέλο που προβλέπει την ευαισθησία του εκπτωτικού κουπονιού των πελατών ενός πελάτη Vericast. Επιλύουν διαφορετικά επιχειρηματικά προβλήματα και ως εκ τούτου έχουν διαφορετικά σενάρια χρήσης σε έναν σχεδιασμό καμπάνιας μάρκετινγκ. Αλλά από την άποψη της ML, και τα δύο μπορούν να ερμηνευθούν ως μοντέλα δυαδικής ταξινόμησης και επομένως θα μπορούσαν να μοιράζονται πολλά κοινά βήματα από την προοπτική της ροής εργασίας ML, συμπεριλαμβανομένου του συντονισμού και της εκπαίδευσης μοντέλων, της αξιολόγησης, της ερμηνευσιμότητας, της ανάπτυξης και του συμπεράσματος.
Επειδή αυτά τα μοντέλα είναι προβλήματα δυαδικής ταξινόμησης (με όρους ML), διαχωρίζουμε τους πελάτες μιας εταιρείας σε δύο κατηγορίες (δυαδικές): αυτές που θα ανταποκρίνονταν θετικά στην καμπάνια και εκείνες που δεν θα ανταποκρίνονταν θετικά. Επιπλέον, αυτά τα παραδείγματα θεωρούνται μια μη ισορροπημένη ταξινόμηση, επειδή τα δεδομένα που χρησιμοποιούνται για την εκπαίδευση του μοντέλου δεν θα περιείχαν ίσο αριθμό πελατών που θα ανταποκρίνονταν και δεν θα ανταποκρίνονταν θετικά.
Η πραγματική δημιουργία ενός μοντέλου όπως αυτό ακολουθεί το γενικευμένο μοτίβο που φαίνεται στο παρακάτω διάγραμμα.
Το μεγαλύτερο μέρος αυτής της διαδικασίας είναι το ίδιο για οποιαδήποτε δυαδική ταξινόμηση εκτός από το βήμα της μηχανικής χαρακτηριστικών. Αυτό είναι ίσως το πιο περίπλοκο αλλά μερικές φορές παραμελημένο βήμα στη διαδικασία. Τα μοντέλα ML εξαρτώνται σε μεγάλο βαθμό από τα χαρακτηριστικά που χρησιμοποιούνται για τη δημιουργία του.
Η Πλατφόρμα Μηχανικής Εκμάθησης της Vericast που είναι εγγενής στο cloud στοχεύει στη γενίκευση και την αυτοματοποίηση των βημάτων μηχανικής των χαρακτηριστικών για διάφορες ροές εργασίας ML και τη βελτιστοποίηση της απόδοσής τους σε μια μέτρηση κόστους έναντι χρόνου, χρησιμοποιώντας τις ακόλουθες δυνατότητες:
- Η βιβλιοθήκη μηχανικής χαρακτηριστικών της πλατφόρμας – Αποτελείται από ένα διαρκώς εξελισσόμενο σύνολο μετασχηματισμών που έχουν δοκιμαστεί για να αποφέρουν γενικεύσιμα χαρακτηριστικά υψηλής ποιότητας με βάση συγκεκριμένες έννοιες πελατών (για παράδειγμα, δημογραφικά στοιχεία πελατών, λεπτομέρειες προϊόντος, λεπτομέρειες συναλλαγών κ.λπ.).
- Έξυπνοι βελτιστοποιητές πόρων – Η πλατφόρμα χρησιμοποιεί τη δυνατότητα υποδομής κατ' απαίτηση του AWS για την ανάπτυξη του βέλτιστου τύπου πόρων επεξεργασίας για τη συγκεκριμένη εργασία μηχανικής χαρακτηριστικών με βάση την αναμενόμενη πολυπλοκότητα του βήματος και τον όγκο των δεδομένων που χρειάζεται να μεταδώσει.
- Δυναμική κλιμάκωση εργασιών μηχανικής χαρακτηριστικών – Χρησιμοποιείται ένας συνδυασμός διαφόρων υπηρεσιών AWS για αυτό, αλλά κυρίως το SageMaker Processing. Αυτό διασφαλίζει ότι η πλατφόρμα παράγει χαρακτηριστικά υψηλής ποιότητας με οικονομικά αποδοτικό και έγκαιρο τρόπο.
Αυτή η ανάρτηση επικεντρώνεται στο τρίτο σημείο αυτής της λίστας και δείχνει πώς να επιτύχετε δυναμική κλιμάκωση των εργασιών επεξεργασίας SageMaker για να επιτύχετε ένα πιο διαχειριζόμενο, αποδοτικό και οικονομικό πλαίσιο επεξεργασίας δεδομένων για μεγάλους όγκους δεδομένων.
Το SageMaker Processing επιτρέπει φόρτους εργασίας που εκτελούν βήματα για προεπεξεργασία ή μεταεπεξεργασία δεδομένων, μηχανική λειτουργιών, επικύρωση δεδομένων και αξιολόγηση μοντέλου στο SageMaker. Παρέχει επίσης ένα διαχειριζόμενο περιβάλλον και αφαιρεί την πολυπλοκότητα της αδιαφοροποίητης ανύψωσης βαρέων βαρών που απαιτείται για τη δημιουργία και τη συντήρηση της υποδομής που απαιτείται για την εκτέλεση του φόρτου εργασίας. Επιπλέον, το SageMaker Processing παρέχει μια διεπαφή API για εκτέλεση, παρακολούθηση και αξιολόγηση του φόρτου εργασίας.
Η εκτέλεση εργασιών επεξεργασίας SageMaker πραγματοποιείται πλήρως μέσα σε ένα διαχειριζόμενο σύμπλεγμα SageMaker, με μεμονωμένες εργασίες να τοποθετούνται σε κοντέινερ στιγμιότυπων κατά το χρόνο εκτέλεσης. Το διαχειριζόμενο σύμπλεγμα, οι παρουσίες και τα κοντέινερ αναφέρουν μετρήσεις στο amazoncloudwatch, συμπεριλαμβανομένης της χρήσης GPU, CPU, μνήμης, μνήμης GPU, μετρήσεων δίσκου και καταγραφής συμβάντων.
Αυτά τα χαρακτηριστικά παρέχουν οφέλη στους μηχανικούς και τους επιστήμονες δεδομένων της Vericast βοηθώντας στην ανάπτυξη γενικευμένων ροών εργασίας προεπεξεργασίας και αφαιρώντας τη δυσκολία διατήρησης δημιουργημένων περιβαλλόντων στα οποία εκτελούνται. Ωστόσο, μπορεί να προκύψουν τεχνικά προβλήματα, δεδομένης της δυναμικής φύσης των δεδομένων και των ποικίλων χαρακτηριστικών τους που μπορούν να τροφοδοτηθούν σε μια τέτοια γενική λύση. Το σύστημα πρέπει να κάνει μια ενημερωμένη αρχική εικασία ως προς το μέγεθος του συμπλέγματος και των περιπτώσεων που το συνθέτουν. Αυτή η εικασία πρέπει να αξιολογήσει τα κριτήρια των δεδομένων και να συναγάγει τις απαιτήσεις της CPU, της μνήμης και του δίσκου. Αυτή η εικασία μπορεί να είναι απολύτως κατάλληλη και να αποδίδει επαρκώς για τη δουλειά, αλλά σε άλλες περιπτώσεις μπορεί να μην είναι. Για ένα δεδομένο σύνολο δεδομένων και εργασία προεπεξεργασίας, η CPU μπορεί να είναι μικρότερου μεγέθους, με αποτέλεσμα τη μέγιστη απόδοση επεξεργασίας και μεγάλους χρόνους ολοκλήρωσης. Ακόμη χειρότερα, η μνήμη θα μπορούσε να αποτελέσει πρόβλημα, με αποτέλεσμα είτε κακή απόδοση είτε συμβάντα εκτός μνήμης που προκαλούν αποτυχία ολόκληρης της εργασίας.
Έχοντας υπόψη αυτά τα τεχνικά εμπόδια, η Vericast ξεκίνησε να δημιουργήσει μια λύση. Έπρεπε να παραμείνουν γενικής φύσης και να ταιριάζουν στην ευρύτερη εικόνα της ροής εργασιών προεπεξεργασίας που είναι ευέλικτα στα εμπλεκόμενα βήματα. Ήταν επίσης σημαντικό να λυθεί τόσο η πιθανή ανάγκη για κλιμάκωση του περιβάλλοντος σε περιπτώσεις όπου η απόδοση ήταν σε κίνδυνο και η χαριτωμένη ανάκαμψη από ένα τέτοιο γεγονός ή όταν μια εργασία ολοκληρώθηκε πρόωρα για οποιονδήποτε λόγο.
Η λύση που δημιούργησε η Vericast για την επίλυση αυτού του ζητήματος χρησιμοποιεί πολλές υπηρεσίες AWS που συνεργάζονται για να επιτύχουν τους επιχειρηματικούς τους στόχους. Σχεδιάστηκε για την επανεκκίνηση και την κλιμάκωση του συμπλέγματος Επεξεργασίας SageMaker με βάση τις μετρήσεις απόδοσης που παρατηρούνται χρησιμοποιώντας τις λειτουργίες Lambda που παρακολουθούν τις εργασίες. Για να μην χάσετε την εργασία σας όταν λαμβάνει χώρα ένα συμβάν κλιμάκωσης ή για να ανακτήσετε από μια εργασία που σταματά απροσδόκητα, δημιουργήθηκε μια υπηρεσία που βασίζεται σε σημεία ελέγχου που χρησιμοποιεί Amazon DynamoDB και αποθηκεύει τα μερικώς επεξεργασμένα δεδομένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) κουβάδες καθώς ολοκληρώθηκαν τα βήματα. Το τελικό αποτέλεσμα είναι μια αυτόματη κλιμάκωση, στιβαρή και δυναμικά ελεγχόμενη λύση.
Το παρακάτω διάγραμμα δείχνει μια επισκόπηση υψηλού επιπέδου του τρόπου λειτουργίας του συστήματος.
Στις επόμενες ενότητες, θα συζητήσουμε τα συστατικά της λύσης με περισσότερες λεπτομέρειες.
Αρχικοποίηση της λύσης
Το σύστημα υποθέτει ότι μια ξεχωριστή διαδικασία ξεκινά τη λύση. Αντίθετα, αυτός ο σχεδιασμός δεν έχει σχεδιαστεί για να λειτουργεί μόνος του, επειδή δεν θα αποφέρει τεχνουργήματα ή αποτελέσματα, αλλά μάλλον λειτουργεί ως υλοποίηση sidecar σε ένα από τα συστήματα που χρησιμοποιούν εργασίες επεξεργασίας SageMaker. Στην περίπτωση του Vericast, η λύση εκκινείται μέσω μιας κλήσης από ένα βήμα Λειτουργιών Βήματος που ξεκίνησε σε άλλη μονάδα του μεγαλύτερου συστήματος.
Μόλις ξεκινήσει η λύση και ενεργοποιηθεί μια πρώτη εκτέλεση, διαβάζεται μια βασική τυπική διαμόρφωση από έναν πίνακα DynamoDB. Αυτή η ρύθμιση παραμέτρων χρησιμοποιείται για τον ορισμό παραμέτρων για την εργασία επεξεργασίας SageMaker και έχει τις αρχικές παραδοχές των αναγκών υποδομής. Η εργασία επεξεργασίας SageMaker έχει τώρα ξεκινήσει.
Παρακολούθηση μεταδεδομένων και εξόδου
Όταν ξεκινά η εργασία, μια συνάρτηση Lambda εγγράφει τα μεταδεδομένα επεξεργασίας εργασιών (την τρέχουσα διαμόρφωση εργασίας και άλλες πληροφορίες καταγραφής) στον πίνακα καταγραφής DynamoDB. Αυτά τα μεταδεδομένα και οι πληροφορίες καταγραφής διατηρούν ένα ιστορικό της εργασίας, τις αρχικές και συνεχιζόμενες ρυθμίσεις παραμέτρων της και άλλα σημαντικά δεδομένα.
Σε ορισμένα σημεία, καθώς τα βήματα ολοκληρώνονται στην εργασία, τα δεδομένα του σημείου ελέγχου προστίθενται στον πίνακα καταγραφής DynamoDB. Τα επεξεργασμένα δεδομένα εξόδου μετακινούνται στο Amazon S3 για γρήγορη ανάκτηση, εάν χρειαστεί.
Αυτή η συνάρτηση Lambda ρυθμίζει επίσης ένα Amazon EventBridge κανόνας που παρακολουθεί την εκτελούμενη εργασία για την κατάστασή της. Συγκεκριμένα, αυτός ο κανόνας είναι η παρακολούθηση της εργασίας για να παρατηρήσει εάν αλλάζει η κατάσταση της εργασίας stopping
ή βρίσκεται σε α stopped
κατάσταση. Αυτός ο κανόνας EventBridge παίζει σημαντικό ρόλο στην επανεκκίνηση μιας εργασίας σε περίπτωση αποτυχίας ή ενός προγραμματισμένου συμβάντος αυτόματης κλιμάκωσης.
Παρακολούθηση μετρήσεων CloudWatch
Η συνάρτηση Lambda ορίζει επίσης έναν συναγερμό CloudWatch με βάση μια μετρική μαθηματική έκφραση στην εργασία επεξεργασίας, η οποία παρακολουθεί τις μετρήσεις όλων των περιπτώσεων χρήσης CPU, χρήσης μνήμης και χρήσης δίσκου. Αυτός ο τύπος συναγερμού (μετρική) χρησιμοποιεί όρια συναγερμού CloudWatch. Ο συναγερμός δημιουργεί συμβάντα με βάση την τιμή της μέτρησης ή της έκφρασης σε σχέση με τα όρια για μια σειρά χρονικών περιόδων.
Στην περίπτωση χρήσης του Vericast, η έκφραση κατωφλίου έχει σχεδιαστεί για να θεωρεί το πρόγραμμα οδήγησης και τα στιγμιότυπα του εκτελεστή ως ξεχωριστά, με τις μετρήσεις να παρακολουθούνται ξεχωριστά για καθεμία. Διαχωρίζοντάς τα, το Vericast γνωρίζει τι προκαλεί τον συναγερμό. Αυτό είναι σημαντικό για να αποφασίσετε πώς να κλιμακώσετε ανάλογα:
- Εάν οι μετρήσεις του εκτελεστή υπερβαίνουν το όριο, είναι καλό να κλιμακωθείτε οριζόντια
- Εάν οι μετρήσεις του προγράμματος οδήγησης ξεπεράσουν το όριο, η οριζόντια κλιμάκωση πιθανότατα δεν θα βοηθήσει, επομένως πρέπει να κλιμακώσουμε κατακόρυφα
Έκφραση μετρήσεων συναγερμού
Η Vericast μπορεί να έχει πρόσβαση στις ακόλουθες μετρήσεις στην αξιολόγησή της για κλιμάκωση και αποτυχία:
- Χρήση CPU – Το άθροισμα της χρήσης κάθε μεμονωμένου πυρήνα CPU
- Χρήση μνήμης – Το ποσοστό της μνήμης που χρησιμοποιείται από τα κοντέινερ σε μια παρουσία
- DiskUtilization – Το ποσοστό του χώρου στο δίσκο που χρησιμοποιείται από τα κοντέινερ σε μια παρουσία
- Χρήση GPU – Το ποσοστό των μονάδων GPU που χρησιμοποιούνται από τα κοντέινερ σε μια παρουσία
- GPUMemoryUtilization – Το ποσοστό της μνήμης GPU που χρησιμοποιείται από τα κοντέινερ σε μια παρουσία
Από αυτό το γράψιμο, η Vericast εξετάζει μόνο CPUUtilization
, MemoryUtilization
, να DiskUtilization
. Στο μέλλον, σκοπεύουν να εξετάσουν GPUUtilization
και GPUMemoryUtilization
επίσης.
Ο παρακάτω κώδικας είναι ένα παράδειγμα συναγερμού CloudWatch που βασίζεται σε μια μετρική μαθηματική έκφραση για την αυτόματη κλίμακα Vericast:
Αυτή η έκφραση δείχνει ότι εξετάζεται ο συναγερμός CloudWatch DriverMemoryUtilization (memoryDriver)
, CPUUtilization (cpuDriver)
, DiskUtilization (diskDriver)
, ExecutorMemoryUtilization (memoryExec)
, CPUUtilization (cpuExec)
, να DiskUtilization (diskExec)
ως μετρήσεις παρακολούθησης. Ο αριθμός 80 στην προηγούμενη έκφραση αντιπροσωπεύει την τιμή κατωφλίου.
Εδώ, IF((cpuDriver) > 80, 1, 0
υποδηλώνει ότι εάν η χρήση της CPU του προγράμματος οδήγησης υπερβαίνει το 80%, το 1 εκχωρείται ως όριο, το άλλο 0. IF(AVG(METRICS("memoryExec")) > 80, 1, 0
σημαίνει ότι όλες οι μετρήσεις με συμβολοσειρά memoryExec
σε αυτό θεωρούνται και υπολογίζεται ένας μέσος όρος σε αυτό. Εάν αυτό το μέσο ποσοστό χρήσης μνήμης υπερβαίνει το 80, το 1 εκχωρείται ως όριο, το άλλο 0.
Ο λογικός τελεστής OR
χρησιμοποιείται στην έκφραση για να ενοποιήσει όλες τις χρήσεις στην έκφραση—αν κάποια από τις χρήσεις φτάσει στο κατώφλι της, ενεργοποιήστε τον συναγερμό.
Για περισσότερες πληροφορίες σχετικά με τη χρήση μετρικών συναγερμών CloudWatch που βασίζονται σε μετρικές μαθηματικές εκφράσεις, ανατρέξτε στο Δημιουργία συναγερμού CloudWatch με βάση μια μετρική μαθηματική έκφραση.
Περιορισμοί συναγερμού CloudWatch
Το CloudWatch περιορίζει τον αριθμό των μετρήσεων ανά ξυπνητήρι σε 10. Αυτό μπορεί να προκαλέσει περιορισμούς, αν χρειαστεί να εξετάσετε περισσότερες μετρήσεις από αυτήν.
Για να ξεπεράσει αυτόν τον περιορισμό, η Vericast έχει θέσει συναγερμούς με βάση το συνολικό μέγεθος του συμπλέγματος. Δημιουργείται ένας συναγερμός ανά τρεις περιπτώσεις (για τρεις περιπτώσεις, θα υπάρχει ένας συναγερμός γιατί θα αθροιστούν εννέα μετρήσεις). Υποθέτοντας ότι η περίπτωση του προγράμματος οδήγησης πρέπει να εξεταστεί ξεχωριστά, δημιουργείται ένας άλλος ξεχωριστός συναγερμός για την περίπτωση του προγράμματος οδήγησης. Επομένως, ο συνολικός αριθμός των συναγερμών που δημιουργούνται είναι περίπου ισοδύναμος με το ένα τρίτο του αριθμού των κόμβων εκτελεστών και έναν επιπλέον για την περίπτωση του προγράμματος οδήγησης. Σε κάθε περίπτωση, ο αριθμός των μετρήσεων ανά συναγερμό είναι κάτω από τον περιορισμό των 10 μετρήσεων.
Τι συμβαίνει όταν βρίσκεται σε κατάσταση συναγερμού
Εάν επιτευχθεί ένα προκαθορισμένο όριο, ο συναγερμός πηγαίνει σε ένα alarm
κράτος, το οποίο χρησιμοποιεί Υπηρεσία απλών ειδοποιήσεων Amazon (Amazon SNS) για αποστολή ειδοποιήσεων. Σε αυτήν την περίπτωση, στέλνει μια ειδοποίηση μέσω email σε όλους τους συνδρομητές με τις λεπτομέρειες σχετικά με τον συναγερμό στο μήνυμα.
Το Amazon SNS χρησιμοποιείται επίσης ως έναυσμα σε μια συνάρτηση Lambda που σταματά την τρέχουσα εργασία επεξεργασίας SageMaker επειδή γνωρίζουμε ότι η εργασία πιθανότατα θα αποτύχει. Αυτή η συνάρτηση καταγράφει επίσης αρχεία καταγραφής στον πίνακα καταγραφής που σχετίζεται με το συμβάν.
Ο κανόνας EventBridge που έχει ρυθμιστεί κατά την έναρξη της εργασίας θα παρατηρήσει ότι η εργασία έχει μετατραπεί σε α stopping
δηλώστε λίγα δευτερόλεπτα αργότερα. Αυτός ο κανόνας επαναλαμβάνει στη συνέχεια την πρώτη συνάρτηση Lambda για επανεκκίνηση της εργασίας.
Η διαδικασία δυναμικής κλιμάκωσης
Η πρώτη συνάρτηση Lambda μετά την εκτέλεση δύο ή περισσότερες φορές θα γνωρίζει ότι μια προηγούμενη εργασία είχε ήδη ξεκινήσει και τώρα έχει σταματήσει. Η συνάρτηση θα περάσει από μια παρόμοια διαδικασία λήψης της βασικής διαμόρφωσης από την αρχική εργασία στον πίνακα καταγραφής DynamoDB και θα ανακτήσει επίσης ενημερωμένη διαμόρφωση από τον εσωτερικό πίνακα. Αυτή η ενημερωμένη διαμόρφωση είναι μια διαμόρφωση δέλτα πόρων που ορίζεται με βάση τον τύπο κλιμάκωσης. Ο τύπος κλιμάκωσης προσδιορίζεται από τα μεταδεδομένα συναγερμού όπως περιγράφηκε προηγουμένως.
Η αρχική διαμόρφωση συν το δέλτα πόρων χρησιμοποιούνται επειδή μια νέα διαμόρφωση και μια νέα εργασία Επεξεργασίας SageMaker ξεκινούν με τους αυξημένους πόρους.
Αυτή η διαδικασία συνεχίζεται μέχρι να ολοκληρωθεί επιτυχώς η εργασία και μπορεί να οδηγήσει σε πολλαπλές επανεκκινήσεις όπως απαιτείται, προσθέτοντας περισσότερους πόρους κάθε φορά.
Το αποτέλεσμα του Vericast
Αυτή η προσαρμοσμένη λύση αυτόματης κλιμάκωσης συνέβαλε καθοριστικά στο να καταστήσει την πλατφόρμα μηχανικής εκμάθησης της Vericast πιο στιβαρή και ανεκτική σε σφάλματα. Η πλατφόρμα μπορεί πλέον να χειρίζεται με χάρη φόρτους εργασίας διαφορετικών όγκων δεδομένων με ελάχιστη ανθρώπινη παρέμβαση.
Πριν από την εφαρμογή αυτής της λύσης, η εκτίμηση των απαιτήσεων πόρων για όλες τις ενότητες που βασίζονται σε Spark ήταν ένα από τα μεγαλύτερα σημεία συμφόρησης της διαδικασίας ενσωμάτωσης νέου πελάτη. Οι ροές εργασίας θα αποτύχουν εάν ο όγκος δεδομένων πελάτη αυξηθεί ή το κόστος θα ήταν αδικαιολόγητο εάν ο όγκος δεδομένων μειωνόταν στην παραγωγή.
Με αυτή τη νέα ενότητα, οι αποτυχίες ροής εργασιών λόγω περιορισμών πόρων έχουν μειωθεί σχεδόν κατά 80%. Οι λίγες αποτυχίες που απομένουν οφείλονται κυρίως σε περιορισμούς λογαριασμού AWS και πέρα από τη διαδικασία αυτόματης κλίμακας. Η μεγαλύτερη νίκη της Vericast με αυτήν τη λύση είναι η ευκολία με την οποία μπορεί να ενσωματώσει νέους πελάτες και ροές εργασίας. Η Vericast αναμένει να επιταχύνει τη διαδικασία κατά τουλάχιστον 60-70%, με τα δεδομένα να έχουν ακόμη συγκεντρωθεί για έναν τελικό αριθμό.
Αν και αυτό θεωρείται επιτυχία από τη Vericast, υπάρχει ένα κόστος που συνεπάγεται. Με βάση τη φύση αυτής της ενότητας και την έννοια της δυναμικής κλιμάκωσης στο σύνολό της, οι ροές εργασίας τείνουν να διαρκούν περίπου 30% περισσότερο (μέση περίπτωση) από μια ροή εργασίας με προσαρμοσμένο σύμπλεγμα για κάθε λειτουργική μονάδα στη ροή εργασίας. Η Vericast συνεχίζει να βελτιστοποιεί σε αυτόν τον τομέα, επιδιώκοντας να βελτιώσει τη λύση ενσωματώνοντας αρχικοποίηση πόρων βασισμένη σε ευρετικές μεθόδους για κάθε λειτουργική μονάδα πελάτη.
Ο Sharmo Sarkar, Senior Manager, Machine Learning Platform της Vericast, λέει: «Καθώς συνεχίζουμε να επεκτείνουμε τη χρήση του AWS και του SageMaker, ήθελα να αφιερώσω λίγο χρόνο για να επισημάνω την απίστευτη δουλειά της Ομάδας Υπηρεσιών Πελατών AWS, των αφοσιωμένων Αρχιτεκτόνων Λύσεων AWS. και AWS Professional Services με τις οποίες συνεργαζόμαστε. Η βαθιά κατανόησή τους για το AWS και το SageMaker μας επέτρεψε να σχεδιάσουμε μια λύση που ανταποκρίνεται σε όλες μας τις ανάγκες και μας παρείχε την ευελιξία και την επεκτασιμότητα που χρειαζόμασταν. Είμαστε τόσο ευγνώμονες που έχουμε μια τόσο ταλαντούχα και έμπειρη ομάδα υποστήριξης στο πλευρό μας.”
Συμπέρασμα
Σε αυτήν την ανάρτηση, μοιραστήκαμε τον τρόπο με τον οποίο το SageMaker και το SageMaker Processing επέτρεψαν στη Vericast να δημιουργήσει ένα διαχειριζόμενο, αποδοτικό και οικονομικά αποδοτικό πλαίσιο επεξεργασίας δεδομένων για μεγάλους όγκους δεδομένων. Συνδυάζοντας τη δύναμη και την ευελιξία του SageMaker Processing με άλλες υπηρεσίες AWS, μπορούν εύκολα να παρακολουθούν τη διαδικασία γενικευμένης μηχανικής χαρακτηριστικών. Μπορούν να εντοπίσουν αυτόματα πιθανά προβλήματα που δημιουργούνται από έλλειψη υπολογισμού, μνήμης και άλλων παραγόντων και να εφαρμόσουν αυτόματα κάθετη και οριζόντια κλιμάκωση, όπως απαιτείται.
Το SageMaker και τα εργαλεία του μπορούν επίσης να βοηθήσουν την ομάδα σας να επιτύχει τους στόχους της ML. Για να μάθετε περισσότερα σχετικά με το SageMaker Processing και πώς μπορεί να βοηθήσει στον φόρτο εργασίας επεξεργασίας δεδομένων σας, ανατρέξτε στο Δεδομένα Διεργασίας. Εάν μόλις ξεκινάτε με την ML και αναζητάτε παραδείγματα και καθοδήγηση, Amazon SageMaker JumpStart μπορεί να σας κάνει να ξεκινήσετε. Το JumpStart είναι ένας κόμβος ML από τον οποίο μπορείτε να αποκτήσετε πρόσβαση σε ενσωματωμένους αλγόριθμους με προεκπαιδευμένα μοντέλα θεμελίωσης για να σας βοηθήσουν να εκτελέσετε εργασίες όπως σύνοψη άρθρων και δημιουργία εικόνων και προκατασκευασμένες λύσεις για την επίλυση περιπτώσεων κοινής χρήσης.
Τέλος, αν αυτή η ανάρτηση σας βοηθήσει ή σας εμπνέει να λύσετε ένα πρόβλημα, θα θέλαμε να το ακούσουμε! Μοιραστείτε τα σχόλιά σας και τα σχόλιά σας.
Σχετικά με τους Συγγραφείς
Άντονι ΜακΚλουρ είναι Senior Partner Solutions Architect με την ομάδα του AWS SaaS Factory. Ο Anthony έχει επίσης έντονο ενδιαφέρον για τη μηχανική μάθηση και την τεχνητή νοημοσύνη σε συνεργασία με την κοινότητα τεχνικού πεδίου AWS ML/AI για να βοηθήσει τους πελάτες να φέρουν τις λύσεις μηχανικής εκμάθησης στην πραγματικότητα.
Τζιότι Σάρμα είναι Μηχανικός Επιστήμης Δεδομένων με την ομάδα της πλατφόρμας μηχανικής μάθησης στο Vericast. Είναι παθιασμένη με όλες τις πτυχές της επιστήμης δεδομένων και επικεντρώνεται στο σχεδιασμό και την εφαρμογή μιας εξαιρετικά επεκτάσιμης και κατανεμημένης πλατφόρμας μηχανικής μάθησης.
Σάρμο Σαρκάρ είναι Ανώτερος Διευθυντής στην Vericast. Είναι επικεφαλής της πλατφόρμας Cloud Machine Learning και των ομάδων έρευνας και ανάπτυξης της πλατφόρμας μάρκετινγκ στο Vericast. Έχει μεγάλη εμπειρία σε Big Data Analytics, Distributed Computing και Natural Language Processing. Εκτός δουλειάς, του αρέσει η μοτοσικλέτα, η πεζοπορία και η ποδηλασία σε ορεινά μονοπάτια.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- PlatoAiStream. Web3 Data Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- Minting the Future με την Adryenn Ashley. Πρόσβαση εδώ.
- Αγορά και πώληση μετοχών σε εταιρείες PRE-IPO με το PREIPO®. Πρόσβαση εδώ.
- πηγή: https://aws.amazon.com/blogs/machine-learning/how-vericast-optimized-feature-engineering-using-amazon-sagemaker-processing/
- :έχει
- :είναι
- :δεν
- :που
- $UP
- 1
- 10
- 100
- 15%
- 7
- a
- Σχετικα
- πρόσβαση
- αναλόγως
- Λογαριασμός
- Κατορθώνω
- Δραστηριοποίηση
- πράξεις
- προσθέτω
- προστιθέμενη
- προσθήκη
- Πρόσθετος
- επαρκώς
- Μετά το
- κατά
- ενισχύσεων
- στόχοι
- τρομάζω
- αλγόριθμος
- αλγόριθμοι
- Όλα
- alone
- κατά μήκος
- ήδη
- Επίσης
- Amazon
- Amazon Sage Maker
- ποσό
- an
- analytics
- και
- Άλλος
- Αντώνιος
- κάθε
- api
- κατάλληλος
- αρχιτεκτονική
- ΕΙΝΑΙ
- ΠΕΡΙΟΧΗ
- γύρω
- άρθρο
- τεχνητός
- τεχνητή νοημοσύνη
- AS
- άποψη
- πτυχές
- ανατεθεί
- βοηθήσει
- At
- αυτόματη
- αυτοματοποίηση
- αυτομάτως
- μέσος
- AWS
- Επαγγελματικές υπηρεσίες AWS
- βάση
- βασίζονται
- BE
- επειδή
- γίνονται
- ήταν
- είναι
- οφέλη
- ΚΑΛΎΤΕΡΟΣ
- Πέρα
- Μεγάλος
- Big Data
- Μεγαλύτερη
- ώθηση
- και οι δύο
- Φέρνοντας
- χτίζω
- Κτίριο
- χτισμένο
- ενσωματωμένο
- επιχείρηση
- αλλά
- by
- υπολογίζεται
- κλήση
- Εκστρατεία
- CAN
- Μπορεί να πάρει
- Καταγραφή
- περίπτωση
- περιπτώσεις
- Αιτία
- προκαλώντας
- ορισμένες
- πρόκληση
- Αλλαγές
- τάξη
- τάξεις
- ταξινόμηση
- πελάτης
- επιβίβαση πελατών
- πελάτες
- Backup
- συστάδα
- κωδικός
- Στήλη
- συνδυασμός
- συνδυάζοντας
- έρχεται
- σχόλια
- Κοινός
- κοινότητα
- εταίρα
- πλήρης
- Ολοκληρώνει
- περίπλοκο
- περίπλοκος
- εξαρτήματα
- Συμβιβασμένος
- Υπολογίστε
- χρήση υπολογιστή
- έννοια
- έννοιες
- διαμόρφωση
- Εξετάστε
- θεωρούνται
- θεωρώντας
- θεωρεί
- περιορισμούς
- περιέχουν
- Εμπορευματοκιβώτια
- ΣΥΝΕΧΕΙΑ
- συνεχίζεται
- Κόστος
- αποδοτική
- θα μπορούσε να
- τοκομερίδιο
- δημιουργία
- δημιουργήθηκε
- δημιουργία
- κριτήρια
- Σταυρός
- Ρεύμα
- Τη στιγμή
- έθιμο
- πελάτης
- Πελάτες
- ημερομηνία
- Δεδομένα Analytics
- Προετοιμασία δεδομένων
- επεξεργασία δεδομένων
- επιστημονικά δεδομένα
- επιστήμονας δεδομένων
- βασίζονται σε δεδομένα
- σύνολα δεδομένων
- αποφασίζει
- αποφάσεις
- αφιερωμένο
- βαθύς
- Δέλτα
- Δημογραφικά στοιχεία
- εξαρτώμενος
- ανάπτυξη
- περιγράφεται
- Υπηρεσίες
- σχεδιασμένα
- σχέδιο
- λεπτομέρεια
- καθέκαστα
- αποφασισμένος
- Ανάπτυξη
- διαφορετικές
- διαφέρουν
- Δυσκολία
- κατευθύνει
- Έκπτωση
- συζητήσουν
- διανέμονται
- κατανεμημένων υπολογιστών
- οδηγείται
- οδηγός
- δυο
- δυναμικός
- δυναμικά
- κάθε
- Νωρίτερα
- ευκολία
- εύκολα
- είτε
- ΗΛΕΚΤΡΟΝΙΚΗ ΔΙΕΥΘΥΝΣΗ
- ενεργοποιημένη
- δίνει τη δυνατότητα
- μηχανικός
- Μηχανική
- Μηχανικοί
- εξασφαλίζει
- Ολόκληρος
- Περιβάλλον
- περιβάλλοντα
- ίσος
- Ισοδύναμος
- αξιολογήσει
- αξιολογώντας
- εκτίμηση
- Συμβάν
- εκδηλώσεις
- παράδειγμα
- παραδείγματα
- Εκτός
- υφιστάμενα
- Ανάπτυξη
- αναμένεται
- αναμένει
- εμπειρία
- Εξερευνώντας
- εκφράσεις
- εκτενής
- Εκτεταμένη εμπειρία
- παράγοντες
- εργοστάσιο
- ΑΠΟΤΥΓΧΑΝΩ
- Αποτυχία
- Χαρακτηριστικό
- Χαρακτηριστικά
- Fed
- ανατροφοδότηση
- λίγοι
- πεδίο
- τελικός
- οριστικοποιήθηκε
- Όνομα
- ταιριάζουν
- Ευελιξία
- εύκαμπτος
- επικεντρώθηκε
- Εξής
- εξής
- Για
- μορφές
- Θεμέλιο
- Πλαίσιο
- από
- πλήρως
- λειτουργία
- λειτουργίες
- Επί πλέον
- μελλοντικός
- συγκέντρωση
- General
- παράγεται
- δημιουργεί
- γενεά
- παίρνω
- να πάρει
- δεδομένου
- Go
- γκολ
- Στόχοι
- πηγαίνει
- καλός
- GPU
- ευγνώμων
- καθοδήγηση
- είχε
- λαβή
- συμβαίνει
- Έχω
- που έχει
- he
- ακούω
- βαριά
- βαριά ανύψωση
- βοήθεια
- βοηθά
- υψηλού επιπέδου
- υψηλής ποιότητας
- Επισημάνετε
- υψηλά
- ιστορία
- Οριζόντιος
- Οριζόντια
- Πως
- Πώς να
- Ωστόσο
- HTML
- http
- HTTPS
- Hub
- ανθρώπινος
- Εμπόδια
- i
- προσδιορίζονται
- if
- απεικονίζει
- εικόνα
- εφαρμογή
- εκτέλεση
- εκτελεστικών
- σημαντικό
- βελτίωση
- in
- Σε άλλες
- περιλαμβάνει
- Συμπεριλαμβανομένου
- ενσωματώνοντας
- Αυξάνουν
- αυξημένη
- απίστευτη
- ατομικές
- Μεμονωμένα
- πληροφορίες
- Υποδομή
- αρχικός
- Αρχίζει
- παράδειγμα
- ενόργανος
- Νοημοσύνη
- σκοπεύω
- τόκος
- περιβάλλον λειτουργίας
- εσωτερικός
- παρέμβαση
- σε
- συμμετέχουν
- ζήτημα
- θέματα
- IT
- ΤΟΥ
- Δουλειά
- Θέσεις εργασίας
- jpg
- μόλις
- Είδος
- Ξέρω
- Έλλειψη
- Γλώσσα
- large
- σε μεγάλο βαθμό
- μεγαλύτερος
- αργότερα
- Οδηγεί
- ΜΑΘΑΊΝΩ
- μάθηση
- ελάχιστα
- Βιβλιοθήκη
- ανύψωση
- περιορισμός
- περιορισμούς
- όρια
- Λιστα
- λίγο
- κούτσουρο
- ξύλευση
- λογικός
- πλέον
- κοιτάζοντας
- χάνουν
- αγάπη
- μηχανή
- μάθηση μηχανής
- διατηρήσουν
- Η διατήρηση
- διατηρεί
- κάνω
- ΚΑΝΕΙ
- Κατασκευή
- διαχειρίζεται
- διευθυντής
- χειραγωγείται
- τρόπος
- πολοί
- Μάρκετινγκ
- μαθηματικά
- Ενδέχεται..
- Γνωρίστε
- Μνήμη
- μήνυμα
- Μεταδεδομένα
- μετρικός
- Metrics
- ενδέχεται να
- νου
- ελάχιστος
- ML
- μοντέλο
- μοντέλα
- Μονάδα μέτρησης
- ενότητες
- στιγμή
- Παρακολούθηση
- παρακολούθηση
- παρακολούθηση
- οθόνες
- περισσότερο
- πλέον
- ως επί το πλείστον
- Βουνό
- πολλαπλούς
- πρέπει
- Φυσικό
- Επεξεργασία φυσικής γλώσσας
- Φύση
- Ανάγκη
- που απαιτούνται
- χρειάζονται
- ανάγκες
- Νέα
- κόμβων
- ιδιαίτερα
- Ειδοποίηση..
- κοινοποίηση
- κοινοποιήσεις
- τώρα
- αριθμός
- στόχοι
- παρατηρούμε
- of
- συχνά
- on
- Κατα παραγγελια
- Onboard
- Επί του σκάφους
- ONE
- συνεχή
- αποκλειστικά
- χειριστής
- βέλτιστη
- Βελτιστοποίηση
- βελτιστοποιημένη
- or
- πρωτότυπο
- ΑΛΛΑ
- δικός μας
- έξω
- Αποτέλεσμα
- παραγωγή
- εκτός
- επί
- φόρμες
- Ξεπεράστε
- επισκόπηση
- παράμετροι
- μέρος
- Ειδικότερα
- εταίρος
- Πέρασμα
- παθιασμένος
- πρότυπο
- ποσοστό
- Εκτελέστε
- επίδοση
- ίσως
- έμμηνα
- προοπτική
- εικόνα
- αγωγού
- Μέρος
- προγραμματίζονται
- πλατφόρμες
- Πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Δοκιμάστε να παίξετε
- παίζει
- σας παρακαλούμε
- συν
- Σημείο
- σημεία
- φτωχός
- δυνατός
- Θέση
- δυναμικού
- δύναμη
- προβλέποντας
- προηγούμενος
- πιθανώς
- Πρόβλημα
- προβλήματα
- διαδικασια μας
- Επεξεργασμένο
- μεταποίηση
- παράγει
- Προϊόν
- παραγωγή
- επαγγελματίας
- παρέχουν
- παρέχεται
- παρέχει
- βάζω
- ποιότητα
- Γρήγορα
- Πιο γρήγορα
- Ε & Α
- μάλλον
- Ακατέργαστος
- φθάσουν
- Διάβασε
- έτοιμος
- Πραγματικότητα
- λόγος
- αρχεία
- Ανάκτηση
- ανάκτηση
- Μειωμένος
- αναφέρεται
- σχετίζεται με
- παραμένουν
- υπόλοιπα
- αναφέρουν
- απαιτείται
- απαιτήσεις
- πόρος
- Υποστηρικτικό υλικό
- Απάντηση
- αποτέλεσμα
- με αποτέλεσμα
- εύρωστος
- Ρόλος
- περίπου
- Άρθρο
- τρέξιμο
- τρέξιμο
- SaaS
- σοφός
- ίδιο
- λέει
- Απεριόριστες δυνατότητες
- επεκτάσιμη
- Κλίμακα
- απολέπιση
- Λύση κλιμάκωσης
- σενάρια
- Επιστήμη
- Επιστήμονας
- επιστήμονες
- δευτερόλεπτα
- τμήματα
- επιλέγονται
- επιλογή
- στείλετε
- αποστέλλει
- αρχαιότερος
- Ευαισθησία
- ξεχωριστό
- διαχωρίζοντας
- υπηρεσία
- Υπηρεσίες
- σειρά
- Σέτς
- διάφοροι
- Κοινοποίηση
- Shared
- Sharma
- αυτή
- παρουσιάζεται
- Δείχνει
- πλευρά
- σημαντικός
- παρόμοιες
- Απλούς
- Μέγεθος
- So
- λύση
- Λύσεις
- SOLVE
- Χώρος
- συγκεκριμένες
- ειδικά
- ταχύτητα
- Γνέθω
- στάδια
- πρότυπο
- στέκεται
- Εκκίνηση
- ξεκίνησε
- ξεκινά
- Κατάσταση
- Κατάσταση
- Βήμα
- Βήματα
- Ακόμη
- σταμάτησε
- στάθμευση
- Διακόπτει
- χώρος στο δίσκο
- καταστήματα
- Σπάγγος
- ισχυρός
- δομημένος
- συνδρομητές
- επιτυχία
- Επιτυχώς
- τέτοιος
- υποστήριξη
- σύστημα
- συστήματα
- τραπέζι
- επειξειργασμένος από ραπτήν
- Πάρτε
- παίρνει
- ταλαντούχος
- Έργο
- εργασίες
- ομάδες
- Τεχνικός
- όροι
- από
- ότι
- Η
- Το μέλλον
- τους
- Τους
- τότε
- Εκεί.
- επομένως
- Αυτοί
- αυτοί
- Τρίτος
- αυτό
- εκείνοι
- τρία
- κατώφλι
- Μέσω
- ώρα
- φορές
- προς την
- μαζι
- εργαλεία
- Σύνολο
- Τρένο
- Εκπαίδευση
- συναλλαγή
- Λεπτομέρειες Συναλλαγής
- Μεταμορφώστε
- Μεταμόρφωση
- μετασχηματισμούς
- ενεργοποιούν
- ενεργοποιήθηκε
- δύο
- τύπος
- τυπικός
- υπό
- κατανόηση
- μονάδες
- μέχρι
- ενημερώθηκε
- us
- χρησιμοποιήσιμος
- Χρήση
- χρήση
- περίπτωση χρήσης
- μεταχειρισμένος
- χρησιμοποιώντας
- επικύρωση
- αξία
- διάφορα
- κατακόρυφος
- τόμος
- όγκους
- vs
- ήθελε
- ήταν
- παρακολουθείτε
- Τρόπος..
- we
- ΛΟΙΠΌΝ
- πότε
- Ποιό
- Ο ΟΠΟΊΟΣ
- ολόκληρο
- όλως
- θα
- νίκη
- με
- εντός
- Εργασία
- ροές εργασίας
- εργαζόμενος
- λειτουργεί
- χειρότερος
- θα
- γραφή
- ακόμη
- Βελτιστοποίηση
- Εσείς
- Σας
- zephyrnet