Οδικός χάρτης του Ιδρύματος MLOps για επιχειρήσεις με το Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Καθώς οι επιχειρηματικές επιχειρήσεις αγκαλιάζουν τη μηχανική μάθηση (ML) στους οργανισμούς τους, οι μη αυτόματες ροές εργασιών για τη δημιουργία, την εκπαίδευση και την ανάπτυξη μοντέλων ML τείνουν να γίνονται εμπόδια στην καινοτομία. Για να ξεπεραστεί αυτό, οι επιχειρήσεις πρέπει να διαμορφώσουν ένα σαφές μοντέλο λειτουργίας που να καθορίζει τον τρόπο συνεργασίας και αλληλεπίδρασης πολλαπλών προσώπων, όπως επιστήμονες δεδομένων, μηχανικοί δεδομένων, μηχανικοί ML, IT και επιχειρηματικοί φορείς. πώς να διαχωρίσετε τις ανησυχίες, τις ευθύνες και τις δεξιότητες. και πώς να χρησιμοποιείτε τις υπηρεσίες AWS βέλτιστα. Αυτός ο συνδυασμός ML και λειτουργιών (MLOps) βοηθά τις εταιρείες να εξορθολογίσουν τον κύκλο ζωής τους από άκρο σε άκρο και να ενισχύσουν την παραγωγικότητα των επιστημόνων δεδομένων, διατηρώντας παράλληλα υψηλή ακρίβεια μοντέλου και ενισχύοντας την ασφάλεια και τη συμμόρφωση.

Πρόσωπα, λειτουργίες και τεχνολογία ML Ops

Σε αυτήν την ανάρτηση, μαθαίνετε για τις βασικές φάσεις της οικοδόμησης ενός ιδρύματος MLOps, πώς συνεργάζονται πολλές προσωπικότητες σε αυτό το ίδρυμα και Amazon Sage Maker ειδικά σχεδιασμένα εργαλεία και ενσωματωμένες ενσωματώσεις με άλλες υπηρεσίες AWS που μπορούν να επιταχύνουν την υιοθέτηση της ML σε μια επιχειρηματική επιχείρηση.

Μοντέλο ωριμότητας MLOps

Η οικοδόμηση ενός ιδρύματος MLOps που μπορεί να καλύψει τις λειτουργίες, τους ανθρώπους και τις τεχνολογικές ανάγκες των εταιρικών πελατών αποτελεί πρόκληση. Ως εκ τούτου, ορίζουμε το ακόλουθο μοντέλο ωριμότητας που ορίζει τις απαραίτητες δυνατότητες των MLOps σε τέσσερις βασικές φάσεις.

Μοντέλο ωριμότητας MLOps με 4 στάδια

Αρχική φάση: Κατά τη διάρκεια αυτής της φάσης, οι επιστήμονες δεδομένων είναι σε θέση να πειραματιστούν και να δημιουργήσουν, να εκπαιδεύσουν και να αναπτύξουν μοντέλα σε AWS χρησιμοποιώντας υπηρεσίες SageMaker. Το προτεινόμενο περιβάλλον ανάπτυξης είναι Στούντιο Amazon SageMaker, στο οποίο οι επιστήμονες δεδομένων μπορούν να πειραματιστούν και να συνεργαστούν με βάση τα σημειωματάρια του Studio.
Επαναλαμβανόμενη φάση – Με τη δυνατότητα πειραματισμού σε AWS, το επόμενο βήμα είναι η δημιουργία αυτόματων ροών εργασιών για την προεπεξεργασία δεδομένων και τη δημιουργία και εκπαίδευση μοντέλων (αγωγοί ML). Οι επιστήμονες δεδομένων συνεργάζονται με μηχανικούς ML σε ένα ξεχωριστό περιβάλλον για να δημιουργήσουν ισχυρούς αλγόριθμους και πηγαίο κώδικα που να είναι έτοιμοι για παραγωγή, ενορχηστρωμένοι χρησιμοποιώντας Αγωγοί Amazon SageMaker. Τα μοντέλα που δημιουργούνται αποθηκεύονται και συγκρίνονται στο μητρώο μοντέλων του Amazon SageMaker.
Αξιόπιστη φάση – Παρόλο που τα μοντέλα έχουν δημιουργηθεί μέσω των αγωγών ML, πρέπει να δοκιμαστούν πριν προωθηθούν στην παραγωγή. Επομένως, σε αυτή τη φάση, εισάγεται η μεθοδολογία αυτόματης δοκιμής, τόσο για το μοντέλο όσο και για την υποδομή ενεργοποίησης, σε ένα απομονωμένο περιβάλλον σταδίου (προπαραγωγής) που προσομοιώνει την παραγωγή. Μετά από μια επιτυχημένη εκτέλεση της δοκιμής, τα μοντέλα αναπτύσσονται στο απομονωμένο περιβάλλον παραγωγής. Για την προώθηση των μοντέλων μεταξύ των πολλαπλών περιβαλλόντων, απαιτείται μη αυτόματη αξιολόγηση και εγκρίσεις.
Κλιμακόμενη φάση – Μετά την παραγωγή της πρώτης λύσης ML, είναι απαραίτητη η κλιμάκωση του ιδρύματος MLOps για την υποστήριξη πολλαπλών ομάδων επιστήμης δεδομένων για τη συνεργασία και την παραγωγή δεκάδων ή εκατοντάδων περιπτώσεων χρήσης ML. Σε αυτή τη φάση, εισάγουμε την τυποποίηση των λύσεων, η οποία φέρνει την ταχύτητα σε αξία μειώνοντας τον χρόνο ανάπτυξης νέων λύσεων παραγωγής από εβδομάδες σε ημέρες. Επιπλέον, αυτοματοποιούμε την εγκατάσταση ασφαλών περιβαλλόντων MLOps για να επιτρέψουμε σε πολλές ομάδες να λειτουργούν με βάση τα δεδομένα τους, μειώνοντας την εξάρτηση και την επιβάρυνση από το IT.

Στις ακόλουθες ενότητες, δείχνουμε πώς να χτίσετε ένα ίδρυμα MLOps με βάση το προηγούμενο μοντέλο ωριμότητας και τις ακόλουθες αρχές:

Ευελιξία – Οι επιστήμονες δεδομένων είναι σε θέση να προσαρμόσουν οποιοδήποτε πλαίσιο (όπως το TensorFlow ή το PyTorch)
Αναπαραγωγικότητα – Οι επιστήμονες δεδομένων είναι σε θέση να αναδημιουργήσουν ή να παρατηρήσουν προηγούμενα πειράματα (κώδικας, δεδομένα και αποτελέσματα)
Επαναχρησιμοποίηση – Οι επιστήμονες δεδομένων και οι μηχανικοί ML είναι σε θέση να επαναχρησιμοποιούν τον πηγαίο κώδικα και τους αγωγούς ML, αποφεύγοντας τις ασυνέπειες και το κόστος
Απεριόριστες δυνατότητες – Οι επιστήμονες δεδομένων και οι μηχανικοί ML είναι σε θέση να κλιμακώνουν πόρους και υπηρεσίες κατά παραγγελία
Ελεξιμότητα – Οι επιστήμονες δεδομένων, τα τμήματα πληροφορικής και τα νομικά τμήματα είναι σε θέση να ελέγχουν αρχεία καταγραφής, εκδόσεις και εξαρτήσεις αντικειμένων και δεδομένων
Συνοχή – Επειδή τα MLOps αποτελούνται από πολλαπλά περιβάλλοντα, το θεμέλιο πρέπει να εξαλείψει τη διακύμανση μεταξύ των περιβαλλόντων

Αρχική φάση

Στην αρχική φάση, ο στόχος είναι να δημιουργηθεί ένα ασφαλές περιβάλλον πειραματισμού όπου ο επιστήμονας δεδομένων λαμβάνει στιγμιότυπα δεδομένων και πειράματα χρησιμοποιώντας σημειωματάρια SageMaker για να αποδείξει ότι η ML μπορεί να λύσει ένα συγκεκριμένο επιχειρηματικό πρόβλημα. Για να επιτευχθεί αυτό, συνιστάται ένα περιβάλλον Studio με προσαρμοσμένη πρόσβαση σε υπηρεσίες μέσω τερματικών σημείων VPC. Ο πηγαίος κώδικας της αρχιτεκτονικής αναφοράς είναι διαθέσιμος στα παραδείγματα που παρέχονται από την ομάδα SageMaker στο Ασφαλής επιστήμη δεδομένων με την αρχιτεκτονική αναφοράς Amazon SageMaker Studio Repo GitHub.

Εκτός από τις υπηρεσίες SageMaker, οι επιστήμονες δεδομένων μπορούν να χρησιμοποιήσουν άλλες υπηρεσίες για την επεξεργασία των δεδομένων, όπως π.χ EMR Αμαζονίου, Αμαζόν Αθηνά, να Κόλλα AWS, με σημειωματάρια αποθηκευμένα και εκδομένα σε AWS CodeCommit αποθετήρια (δείτε το παρακάτω σχήμα).

αρχική φάση της δομής του λογαριασμού MLOps

Επαναλαμβανόμενη φάση

Αφού οι επιστήμονες δεδομένων αποδείξουν ότι η ML μπορεί να λύσει το επιχειρηματικό πρόβλημα και εξοικειωθούν με τον πειραματισμό, την εκπαίδευση και την ανάπτυξη μοντέλων του SageMaker, το επόμενο βήμα είναι να ξεκινήσει η παραγωγή της λύσης ML. Το παρακάτω σχήμα απεικονίζει αυτήν την αρχιτεκτονική.

Επαναλαμβανόμενη δομή λογαριασμού φάσης

Σε αυτό το στάδιο, είναι απαραίτητος ο διαχωρισμός της ανησυχίας. Διαχωρίζουμε το περιβάλλον σε πολλούς λογαριασμούς AWS:

Λίμνη δεδομένων – Αποθηκεύει όλα τα δεδομένα που λαμβάνονται από τις εγκαταστάσεις (ή άλλα συστήματα) στο cloud. Οι μηχανικοί δεδομένων είναι σε θέση να δημιουργήσουν αγωγούς εξαγωγής, μετασχηματισμού και φόρτωσης (ETL) που συνδυάζουν πολλαπλές πηγές δεδομένων και προετοιμάζουν τα απαραίτητα σύνολα δεδομένων για τις περιπτώσεις χρήσης ML. Τα δεδομένα καταλογίζονται μέσω του καταλόγου δεδομένων AWS Glue και μοιράζονται με άλλους χρήστες και λογαριασμούς μέσω Σχηματισμός Λίμνης AWS (το επίπεδο διακυβέρνησης δεδομένων). Στον ίδιο λογαριασμό, Κατάστημα χαρακτηριστικών Amazon SageMaker μπορεί να φιλοξενηθεί, αλλά δεν το καλύπτουμε σε αυτήν την ανάρτηση. Για περισσότερες πληροφορίες, ανατρέξτε στο Ενεργοποιήστε την επαναχρησιμοποίηση λειτουργιών σε λογαριασμούς και ομάδες χρησιμοποιώντας το Amazon SageMaker Feature Store.
Πειραματισμός – Επιτρέπει στους επιστήμονες δεδομένων να διεξάγουν την έρευνά τους. Η μόνη διαφορά είναι ότι η προέλευση των στιγμιότυπων δεδομένων είναι η λίμνη δεδομένων. Οι επιστήμονες δεδομένων έχουν πρόσβαση μόνο σε συγκεκριμένα σύνολα δεδομένων, τα οποία μπορούν να ανωνυμοποιηθούν σε περίπτωση GDPR ή άλλων περιορισμών απορρήτου δεδομένων. Επιπλέον, ο λογαριασμός πειραματισμού μπορεί να έχει πρόσβαση στο διαδίκτυο για να επιτρέψει στους επιστήμονες δεδομένων να χρησιμοποιούν νέα πλαίσια επιστήμης δεδομένων ή βιβλιοθήκες ανοιχτού κώδικα τρίτων. Επομένως, ο λογαριασμός πειραματισμού θεωρείται ως μέρος του μη παραγωγικού περιβάλλοντος.
Ανάπτυξη (dev) – Το πρώτο στάδιο του περιβάλλοντος παραγωγής. Οι επιστήμονες δεδομένων μετακινούνται από τα σημειωματάρια στον κόσμο των αυτόματων ροών εργασίας και των αγωγών SageMaker. Πρέπει να συνεργαστούν με μηχανικούς ML για να αφαιρέσουν τον κώδικά τους και να εξασφαλίσουν κάλυψη δοκιμών, χειρισμού σφαλμάτων και ποιότητας κώδικα. Ο στόχος είναι η ανάπτυξη αγωγών ML, οι οποίες είναι αυτόματες ροές εργασίας που προεπεξεργάζονται, εκπαιδεύουν, αξιολογούν και καταχωρούν μοντέλα στο μητρώο μοντέλων SageMaker. Η ανάπτυξη των αγωγών ML γίνεται μόνο μέσω αγωγών CI/CD και η πρόσβαση στο Κονσόλα διαχείρισης AWS είναι περιορισμένη. Η σύνδεση στο Διαδίκτυο δεν επιτρέπεται επειδή ο αγωγός ML έχει πρόσβαση στα δεδομένα παραγωγής στη λίμνη δεδομένων (μόνο για ανάγνωση).
Εργαλεία (ή αυτοματισμός) – Φιλοξενεί τα αποθετήρια CodeCommit, Αγωγός κώδικα AWS Διοχετεύσεις CI/CD, μητρώο μοντέλων SageMaker και Amazon ECR για φιλοξενία προσαρμοσμένων κοντέινερ. Επειδή η λίμνη δεδομένων είναι το μοναδικό σημείο αλήθειας για τα δεδομένα, ο λογαριασμός εργαλείων αφορά τον κώδικα, τα δοχεία και τα παραγόμενα τεχνουργήματα.

Λάβετε υπόψη ότι αυτή η σύμβαση ονομασίας λογαριασμού και η στρατηγική πολλών λογαριασμών ενδέχεται να διαφέρουν ανάλογα με τις ανάγκες της επιχείρησής σας, αλλά αυτή η δομή έχει σκοπό να εμφανίζει τα προτεινόμενα επίπεδα απομόνωσης. Για παράδειγμα, θα μπορούσατε να μετονομάσετε τον λογαριασμό ανάπτυξης σε λογαριασμό εκπαίδευσης ή έκδοσης μοντέλου.

Για να επιτύχετε την αυτόματη ανάπτυξη, είναι σημαντικό να κατανοήσετε πώς μπορείτε να μεταβείτε από τους φορητούς υπολογιστές σε διοχετεύσεις ML και να τυποποιήσετε τα αποθετήρια κώδικα και τη δομή δεδομένων, τα οποία θα συζητήσουμε στις ακόλουθες ενότητες.

Από φορητούς υπολογιστές έως αγωγούς ML

Ο στόχος του περιβάλλοντος ανάπτυξης είναι να αναδιαρθρώσει, να αυξήσει, να βελτιώσει και να κλιμακώσει τον κώδικα σε σημειωματάρια και να τον μετακινήσει στους αγωγούς ML. Ένας αγωγός ML είναι ένα σύνολο βημάτων που είναι υπεύθυνα για την προεπεξεργασία των δεδομένων, την εκπαίδευση ή τη χρήση μοντέλων και την μετεπεξεργασία των αποτελεσμάτων. Κάθε βήμα θα πρέπει να εκτελεί μια ακριβώς εργασία (έναν συγκεκριμένο μετασχηματισμό) και να είναι αρκετά αφηρημένο (για παράδειγμα, να μεταβιβάζονται ονόματα στηλών ως παραμέτρους εισόδου) ώστε να είναι δυνατή η επαναχρησιμοποίηση. Το παρακάτω διάγραμμα απεικονίζει ένα παράδειγμα αγωγού.

Sample SageMaker Pipeline

Για την υλοποίηση αγωγών ML, οι επιστήμονες δεδομένων (ή οι μηχανικοί ML) χρησιμοποιούν το SageMaker Pipelines. Μια διοχέτευση SageMaker είναι μια σειρά διασυνδεδεμένων βημάτων (εργασίες επεξεργασίας SageMaker, εκπαίδευση, HPO) που ορίζεται από έναν ορισμό αγωγού JSON χρησιμοποιώντας ένα Python SDK. Αυτός ο ορισμός του αγωγού κωδικοποιεί έναν αγωγό χρησιμοποιώντας ένα κατευθυνόμενο άκυκλο γράφημα (DAG). Αυτό το DAG παρέχει πληροφορίες σχετικά με τις απαιτήσεις και τις σχέσεις μεταξύ κάθε βήματος του αγωγού ML σας.

Ανάλογα με την περίπτωση χρήσης, μπορείτε να διαχωρίσετε τον αγωγό ML σε δύο κύριους τύπους: εκπαίδευση και συμπέρασμα παρτίδας.

Το παρακάτω σχήμα απεικονίζει τη ροή αγωγού εκπαίδευσης ML.

ML Κατασκευή αγωγού

Η φάση προεπεξεργασίας μπορεί να αποτελείται από πολλά στάδια. Οι συνηθισμένοι μετασχηματισμοί της επιστήμης δεδομένων είναι ο διαχωρισμός και η δειγματοληψία δεδομένων (εκπαίδευση, επικύρωση, σύνολο δοκιμών), κωδικοποίηση ή διανυσματοποίηση με ένα ενδιάμεσο βήμα, δέσμευση και κλιμάκωση. Το βήμα εκπαίδευσης του μοντέλου θα μπορούσε να είναι είτε μία εργασία εκπαίδευσης, εάν ο επιστήμονας δεδομένων γνωρίζει την καλύτερη διαμόρφωση μοντέλου, είτε μια εργασία βελτιστοποίησης υπερπαραμέτρων (HPO), στην οποία το AWS ορίζει τις καλύτερες υπερπαραμέτρους για το μοντέλο (μέθοδος Bayesian) και παράγει τις αντίστοιχες μοντέλο τεχνούργημα. Στο βήμα αξιολόγησης, το παραγόμενο τεχνούργημα του μοντέλου χρησιμοποιείται για την εκτέλεση συμπερασμάτων στο σύνολο δεδομένων επικύρωσης. Στη συνέχεια, ο αγωγός ML ελέγχει εάν οι παραγόμενες μετρήσεις ακρίβειας (όπως το F1, η ακρίβεια και οι δεκαδικοί απολαβές) υπερβαίνουν τα απαραίτητα όρια. Εάν αυτό το βήμα είναι επιτυχές, τα τεχνουργήματα και τα μεταδεδομένα του μοντέλου μετακινούνται στο μητρώο μοντέλου για παραγωγή. Σημειώστε ότι το βήμα βάσης εξαγωγής εκμεταλλεύεται Παρακολούθηση μοντέλου Amazon SageMaker λειτουργικότητα, δημιουργώντας ένα αντικείμενο JSON με τα στατιστικά στοιχεία που χρησιμοποιούνται αργότερα για τον εντοπισμό παρασυρόμενων μοντέλων και μπορούν να φιλοξενηθούν στο μητρώο μοντέλου SageMaker ως μεταδεδομένα μοντέλου.

Σε περίπτωση συμπερασμάτων παρτίδας, οι επιστήμονες δεδομένων μπορούν να δημιουργήσουν παρόμοιους αγωγούς, όπως φαίνεται στο παρακάτω σχήμα.

Σωλήνας συμπερασμάτων ML

Το στάδιο προεπεξεργασίας του συμπερασμάτων παρτίδας είναι συχνά το ίδιο με την εκπαίδευση αποκλείοντας τη δειγματοληψία δεδομένων και τη στήλη της αληθείας βάσης. Το συμπέρασμα παρτίδας είναι το βήμα που στέλνει δεδομένα σε παρτίδες για συμπέρασμα στο αντίστοιχο τελικό σημείο και μπορεί να υλοποιηθεί χρησιμοποιώντας μετασχηματισμός παρτίδας. Το βήμα μεταεπεξεργασίας παράγει πρόσθετα στατιστικά στοιχεία, όπως διανομή αποτελεσμάτων ή ενώνει τα αποτελέσματα με εξωτερικά αναγνωριστικά. Στη συνέχεια, ένα βήμα παρακολούθησης μοντέλου είναι σε θέση να συγκρίνει τα βασικά στατιστικά στοιχεία των δεδομένων που χρησιμοποιούνται για εκπαίδευση (μεταδεδομένα μοντέλου JSON στο μητρώο μοντέλου) με τα νέα εισερχόμενα δεδομένα για συμπέρασμα.

Μπορείτε να παραλείψετε τα βήματα προεπεξεργασίας εάν οι επιστήμονες δεδομένων δημιουργήσουν μοντέλα διοχέτευσης που μπορούν να αποθηκευτούν στο μητρώο μοντέλων SageMaker. Για περισσότερες λεπτομέρειες, ανατρέξτε στο Μοντέλα κεντρικού υπολογιστή μαζί με λογική προεπεξεργασίας ως σειριακός αγωγός συμπερασμάτων πίσω από ένα τελικό σημείο.

Τυποποίηση αποθετηρίων

Για να καταστεί δυνατή η συνεργασία μεταξύ επιστημόνων δεδομένων και μηχανικών ML, είναι απαραίτητη η τυποποίηση της δομής του αποθετηρίου κώδικα. Επιπλέον, η τυποποίηση είναι επωφελής για τη δομή του αγωγού CI/CD, επιτρέποντας την ενσωμάτωση της αυτόματης επικύρωσης, της κατασκευής (όπως η κατασκευή προσαρμοσμένων εμπορευματοκιβωτίων) και των βημάτων δοκιμής.

Το ακόλουθο παράδειγμα απεικονίζει τον διαχωρισμό των λύσεων ML σε δύο αποθετήρια: ένα χώρο αποθήκευσης κτιρίου και εκπαίδευσης για εκπαίδευση (και προαιρετικά μοντέλο διοχέτευσης) και ανάπτυξη για την προώθηση των μοντέλων αγωγών συμπερασμάτων παρτίδας ή για την παρουσίαση των τελικών σημείων σε πραγματικό χρόνο:

Κτίριο/Αποθήκη Εκπαίδευσης

# Building/Training Repository
algorithms/
    shared_libraries/
        test/
            input/ # (optional)
            output/ # (optional)
            test_<step>.py
        <help_functions1>.py
        <help_functions2>.py
        README.md
    preprocessing/ # 1 folder per pre-processing job, order is defined in the ml pipeline logic
        <preprocessing_job_name1> # e.g classic ml: one hot encoding
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
            __main__.py
            dockerfile # (optional) define dockerfile in case of custom containers
            README.md
       <preprocessing_job_name2> # e.g classic ml: one hot encoding
        ...
    training/ # (optional) each one is a training job in SageMaker
        <training_job_name>/
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
            __main__.py
            README.md
    inference/ # (optional) for batch inference
        <batch_inference_job_name>/ # one job per training job name if we're building multiple models
            __main__.py
            README.md
    postprocessing/ # each one is a processing job in SageMaker
        <postprocessing_job_name1>/
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
           __main__.py
            README.md
        <postprocessing_job_name2>/
        ...
ml_pipelines/
    training/ # (note) Multiple training ML pipelines can be defined
        ml-pipeline-training.py # Define training ML pipelines using SageMaker Pipeline SDK
        input.json # (optinal - json or yaml) ML pipeline configuration to enable reusability
    README.md
notebooks/
    *.ipynb # the original notebooks as has been created by the data scientists
    README.md
build_spec.yml
README.md

Αποθετήριο ανάπτυξης

# Deployment Repository
inference_config/
    staging/
        inference_config.json # Batch inference ML pipeline or real-time model endpoint configuration to enable reusability
    prod/
        inference_config.json # Batch inference ML pipeline or real-time model endpoint configuration to enable reusability
    README.md
app_infra/
    api_gateway/...
    lambda/...
    event_bridge/...
    batch_inference/ml-pipeline-inference.py # Define batch inference SageMaker Pipeline
tests/
    integration_test/
        test_<description>.py
        test_<description>.py
        # …
    stress_test/
        test_<description>.py
    other_test/
        test_<description>.py
    README.md
README.md

Το αποθετήριο κτιρίου και εκπαίδευσης χωρίζεται σε τρεις κύριους φακέλους:

Αλγόριθμοι – Οι επιστήμονες δεδομένων αναπτύσσουν τον κώδικα για κάθε βήμα των αγωγών ML στον ριζικό φάκελο αλγορίθμων. Τα βήματα μπορούν να ομαδοποιηθούν σε προεπεξεργασία, εκπαίδευση, συμπέρασμα παρτίδας και μεταεπεξεργασία (αξιολόγηση). Σε κάθε ομάδα, μπορούν να οριστούν πολλαπλά βήματα σε αντίστοιχους υποφακέλους, οι οποίοι περιέχουν έναν φάκελο για τις δοκιμές μονάδας (συμπεριλαμβανομένων προαιρετικών εισόδων και εξόδων), τις κύριες λειτουργίες, το readme και ένα αρχείο Docker σε περίπτωση ανάγκης προσαρμοσμένου κοντέινερ. Εκτός από τα κύρια, πολλά αρχεία κώδικα μπορούν να φιλοξενηθούν στον ίδιο φάκελο. Οι κοινές βοηθητικές βιβλιοθήκες για όλα τα βήματα μπορούν να φιλοξενηθούν σε έναν κοινόχρηστο φάκελο βιβλιοθήκης. Οι επιστήμονες δεδομένων είναι υπεύθυνοι για την ανάπτυξη των δοκιμών μονάδας επειδή κατέχουν τη λογική των βημάτων και οι μηχανικοί ML είναι υπεύθυνοι για τη βελτίωση χειρισμού σφαλμάτων και τη σύσταση κάλυψης δοκιμών. Ο αγωγός CI/CD είναι υπεύθυνος για την εκτέλεση των δοκιμών, την αυτόματη κατασκευή των κοντέινερ (εάν είναι απαραίτητο) και τη συσκευασία των πολλαπλών αρχείων πηγαίου κώδικα.
Σωληνώσεις ML – Αφού αναπτύξετε τον πηγαίο κώδικα και τις δοκιμές κάθε βήματος, το επόμενο βήμα είναι να ορίσετε τις σωληνώσεις του SageMaker σε έναν άλλο ριζικό φάκελο. Κάθε ορισμός σωλήνωσης ML τοποθετείται σε υποφάκελο που περιέχει το αρχείο .py και ένα αρχείο JSON ή .yaml για παραμέτρους εισόδου, όπως εύρη υπερπαραμέτρων. Είναι απαραίτητο ένα αρχείο readme για την περιγραφή των αγωγών ML.
Φορητοί υπολογιστές – Αυτός ο φάκελος φιλοξενεί τα σημειωματάρια προέλευσης που χρησιμοποίησε ο επιστήμονας δεδομένων κατά τη διάρκεια του πειραματισμού.

Το αποθετήριο ανάπτυξης αποτελείται από τρία κύρια μέρη:

Διαμόρφωση συμπερασμάτων – Περιέχει τη διαμόρφωση τελικών σημείων σε πραγματικό χρόνο ή συμπερασμάτων παρτίδας ανά περιβάλλον ανάπτυξης, όπως τύπους παρουσιών.
Υποδομή εφαρμογών – Φιλοξενεί τον πηγαίο κώδικα της υποδομής που απαιτείται για την εκτέλεση του συμπεράσματος, εάν είναι απαραίτητο. Αυτό μπορεί να είναι ένας μηχανισμός ενεργοποίησης μέσω Amazon EventBridge, Amazon API Gateway, AWS Lambda λειτουργίες ή SageMaker Pipelines.
Δοκιμές – Αποτελείται από πολλούς υποφακέλους ανάλογα με τη μεθοδολογία δοκιμών πελατών. Ως το ελάχιστο σύνολο δοκιμών, προτείνουμε μια δοκιμή ολοκλήρωσης (από άκρο σε άκρο εκτέλεση του συμπεράσματος, συμπεριλαμβανομένης της υποδομής εφαρμογών), δοκιμασία ακραίων καταστάσεων (εξέταση περιπτώσεων αιχμής) και δοκιμές ML (όπως η κατανομή των βαθμολογιών εμπιστοσύνης ή των πιθανοτήτων).

Με τη δέσμευση αλλαγών στο χώρο αποθήκευσης κτιρίου και εκπαίδευσης, ένας αγωγός CI/CD είναι υπεύθυνος για την επικύρωση της δομής του αποθετηρίου, την εκτέλεση των δοκιμών και την ανάπτυξη και λειτουργία των αγωγών ML. Ένας διαφορετικός αγωγός CI/CD είναι υπεύθυνος για την προώθηση των μοντέλων, τα οποία εξετάζουμε στην επόμενη ενότητα.

Τυποποίηση διακλάδωσης αποθετηρίου και CI/CD

Για να διασφαλιστεί η ευρωστία των αγωγών ML στον λογαριασμό dev, προτείνεται μια στρατηγική αποθήκευσης πολλαπλών διακλαδώσεων, ενώ η ανάπτυξη πραγματοποιείται μόνο μέσω αγωγών CI/CD. Οι επιστήμονες δεδομένων θα πρέπει να χρησιμοποιούν έναν κλάδο χαρακτηριστικών για να αναπτύξουν τη νέα τους λειτουργικότητα (πηγαίος κώδικας). Όταν είναι έτοιμοι να αναπτύξουν τους αντίστοιχους αγωγούς ML, μπορούν να το προωθήσουν στον κλάδο ανάπτυξης. Μια εναλλακτική σε αυτήν την προσέγγιση είναι να επιτρέπεται η ανάπτυξη αγωγών ML ανά κλάδο χαρακτηριστικών. Για περισσότερες πληροφορίες, ανατρέξτε στο Βελτιώστε τη ροή εργασίας σας στην επιστήμη των δεδομένων με έναν αγωγό εκπαίδευσης MLOps πολλαπλών κλάδων χρησιμοποιώντας το AWS.

Το παρακάτω σχήμα απεικονίζει τη στρατηγική διακλάδωσης και τα απαραίτητα βήματα διοχέτευσης CI/CD που εκτελούμε στο περιβάλλον του dev για τη δημιουργία σωλήνων ML και μοντέλου.

έκδοση μοντέλου υποκαταστήματος

Το παράδειγμα κώδικα της προσέγγισης πολλαπλών κλάδων είναι διαθέσιμο στο Πολλαπλός αγωγός εκπαίδευσης MLOps. Μπορούμε να αποθηκεύσουμε τα μοντέλα που παράγονται από μια διοχέτευση ML που βασίζεται σε διακλάδωση χαρακτηριστικών σε μια ξεχωριστή ομάδα μοντέλων χαρακτηριστικών και να τα παροπλίσουμε κατά τη διάρκεια ενός αιτήματος συγχώνευσης με τον κύριο κλάδο. Τα μοντέλα της κύριας ομάδας μοντέλων είναι αυτά που προωθούνται στην παραγωγή.

Τυποποίηση δομής δεδομένων

Εξίσου σημαντική με την τυποποίηση του πηγαίου κώδικα είναι η τυποποίηση της δομής των δεδομένων, η οποία επιτρέπει στους επιστήμονες δεδομένων και στους μηχανικούς ML να διορθώνουν, να ελέγχουν και να παρακολουθούν την προέλευση και το ιστορικό των μοντέλων και των αγωγών ML. Το παρακάτω διάγραμμα απεικονίζει ένα τέτοιο παράδειγμα.

παράδειγμα δομής αρχείου ενός κάδου s3

Για απλότητα, ας υποθέσουμε ότι τα ιστορικά δεδομένα εισόδου βρίσκονται σε έναν κάδο του λογαριασμού ανάπτυξης κάτω από το δευτερεύον κλειδί εισόδου (κανονικά αυτό βρίσκεται στη λίμνη δεδομένων). Για κάθε περίπτωση χρήσης ML, πρέπει να δημιουργηθεί ένα ξεχωριστό δευτερεύον κλειδί. Για να ενεργοποιήσει μια νέα διοχέτευση ML για εκτέλεση, ο επιστήμονας δεδομένων θα πρέπει να εκτελέσει μια δέσμευση και ώθηση git, η οποία ενεργοποιεί τη διοχέτευση CI/CD. Στη συνέχεια, η διοχέτευση CI/CD δημιουργεί ένα δευτερεύον κλειδί αντιγράφοντας τα τεχνουργήματα κώδικα (το code δευτερεύον κλειδί) και δεδομένα εισόδου (το input δευτερεύον κλειδί) κάτω από ένα υποκατάτμηση του αναγνωριστικού έκδοσης. Για παράδειγμα, το αναγνωριστικό κατασκευής cνα είναι ένας συνδυασμός ημερομηνίας-ώρας και κατακερματισμού git ή ένα αναγνωριστικό εκτέλεσης διοχέτευσης SageMaker. Αυτή η δομή επιτρέπει στον επιστήμονα δεδομένων να ελέγχει και να ρωτά προηγούμενες αναπτύξεις και εκτελέσεις. Μετά από αυτό, ο αγωγός CI/CD αναπτύσσεται και ενεργοποιεί τον αγωγό ML. Ενώ εκτελείται ο αγωγός ML, κάθε βήμα εξάγει τα ενδιάμεσα αποτελέσματα ml-pipeline-outputs. Είναι σημαντικό να έχετε κατά νου ότι διαφορετικοί κλάδοι χαρακτηριστικών αναπτύσσουν και εκτελούν μια νέα παρουσία του ML Pipeline και ο καθένας πρέπει να εξάγει τα ενδιάμεσα αποτελέσματα σε διαφορετικό υποφάκελο με ένα νέο δευτερεύον κλειδί και/ή ένα τυποποιημένο πρόθεμα ή επίθημα που περιλαμβάνει το αναγνωριστικό κλάδου χαρακτηριστικών.

Αυτή η προσέγγιση υποστηρίζει την πλήρη δυνατότητα ελέγχου κάθε πειραματισμού. Ωστόσο, η πολυκλαδική προσέγγιση της αναπτυξιακής στρατηγικής παράγει μεγάλο όγκο δεδομένων. Επομένως, είναι απαραίτητη μια στρατηγική κύκλου ζωής δεδομένων. Προτείνουμε τη διαγραφή τουλάχιστον των δεδομένων κάθε διοχέτευσης ML διακλάδωσης χαρακτηριστικών σε κάθε επιτυχημένο αίτημα έλξης/συγχώνευσης. Αλλά αυτό εξαρτάται από το μοντέλο λειτουργίας και την ευαισθησία ελέγχου που πρέπει να υποστηρίξει η επιχείρησή σας. Μπορείτε να χρησιμοποιήσετε μια παρόμοια προσέγγιση στις σωληνώσεις ML συμπερασμάτων παρτίδας

Αξιόπιστη φάση

Μετά τον αρχικό διαχωρισμό των ανησυχιών μεταξύ των επιστημόνων δεδομένων, των μηχανικών ML και των μηχανικών δεδομένων χρησιμοποιώντας πολλαπλούς λογαριασμούς, το επόμενο βήμα είναι η προώθηση των παραγόμενων μοντέλων από το μητρώο μοντέλων σε ένα απομονωμένο περιβάλλον για την εκτέλεση συμπερασμάτων. Ωστόσο, πρέπει να διασφαλίσουμε τη στιβαρότητα των αναπτυγμένων μοντέλων. Επομένως, είναι υποχρεωτική η προσομοίωση του αναπτυσσόμενου μοντέλου σε ένα κατοπτρικό περιβάλλον παραγωγής, δηλαδή η προπαραγωγή (ή το στάδιο).

Το παρακάτω σχήμα απεικονίζει αυτήν την αρχιτεκτονική.

Αξιόπιστη δομή λογαριασμού φάσης

Η προώθηση ενός μοντέλου και ανάπτυξης τελικού σημείου στο περιβάλλον προπαραγωγής πραγματοποιείται χρησιμοποιώντας τα συμβάντα ενημέρωσης κατάστασης μητρώου μοντέλου (ή git push στο χώρο αποθήκευσης ανάπτυξης), τα οποία ενεργοποιούν μια ξεχωριστή διοχέτευση CI/CD χρησιμοποιώντας συμβάντα EventBridge. Το πρώτο βήμα της διοχέτευσης CI/CD απαιτεί μη αυτόματη έγκριση από τον επικεφαλής επιστήμονα δεδομένων (και προαιρετικά τον ιδιοκτήτη του προϊόντος, τον επιχειρηματικό αναλυτή ή άλλους κύριους επιστήμονες δεδομένων). Ο υπεύθυνος έγκρισης πρέπει να επικυρώσει τους KPI απόδοσης του μοντέλου και το QA του κώδικα στο χώρο αποθήκευσης ανάπτυξης. Μετά την έγκριση, ο αγωγός CI/CD εκτελεί τον κωδικό δοκιμής στο χώρο αποθήκευσης ανάπτυξης (δοκιμή ολοκλήρωσης, δοκιμή αντοχής, δοκιμή ML). Εκτός από το τελικό σημείο του μοντέλου, το CI/CD ελέγχει επίσης την υποδομή ενεργοποίησης, όπως EventBridge, λειτουργίες Lambda ή API Gateway. Το παρακάτω διάγραμμα δείχνει αυτήν την ενημερωμένη αρχιτεκτονική.

Αξιόπιστη ρύθμιση λογαριασμού φάσης με ξεχωριστούς λογαριασμούς preprod και prod

Μετά την επιτυχή εκτέλεση των δοκιμών, ο αγωγός CI/CD ειδοποιεί τους νέους (ή ίδιους) εγκρίοντες ότι ένα μοντέλο είναι έτοιμο να προωθηθεί στην παραγωγή. Σε αυτό το στάδιο, ο επιχειρηματικός αναλυτής μπορεί να θέλει να εκτελέσει μερικές πρόσθετες δοκιμές στατιστικών υποθέσεων σχετικά με τα αποτελέσματα του μοντέλου. Μετά την έγκριση, τα μοντέλα και η υποδομή ενεργοποίησης τοποθετούνται στην παραγωγή. Πολλαπλές μέθοδοι ανάπτυξης υποστηρίζονται από το SageMaker, όπως δοκιμές μπλε/πράσινου, Canary και A/B (δείτε περισσότερα στο Προστατευτικά κιγκλιδώματα ανάπτυξης). Εάν η σωλήνωση CI/CD αποτύχει, ένας μηχανισμός επαναφοράς επαναφέρει το σύστημα στην πιο πρόσφατη στιβαρή κατάσταση.

Το παρακάτω διάγραμμα απεικονίζει τα κύρια βήματα της διοχέτευσης CI/CD για την προώθηση ενός μοντέλου και την υποδομή για την ενεργοποίηση του τελικού σημείου του μοντέλου, όπως το API Gateway, οι λειτουργίες Lambda και το EventBridge.

Παράδειγμα μηχανισμού ενεργοποίησης για την ανάπτυξη CICD

Ενσωμάτωση λίμνης δεδομένων και MLOps

Σε αυτό το σημείο, είναι σημαντικό να κατανοήσουμε τις απαιτήσεις δεδομένων ανά στάδιο ανάπτυξης ή λογαριασμό και τον τρόπο ενσωμάτωσης των MLOps με μια κεντρική λίμνη δεδομένων. Το παρακάτω διάγραμμα απεικονίζει τα MLOps και τα στρώματα λιμνών δεδομένων.

Παράδειγμα διεπαφής περιβάλλοντος ml με λίμνη δεδομένων

Στη λίμνη δεδομένων, οι μηχανικοί δεδομένων είναι υπεύθυνοι για τη σύνδεση πολλαπλών πηγών δεδομένων και τη δημιουργία των αντίστοιχων συνόλων δεδομένων (για παράδειγμα, ένας μόνο πίνακας δεδομένων δομής ή ένας μόνο φάκελος με αρχεία PDF ή εικόνες) για τις περιπτώσεις χρήσης ML με την κατασκευή ETL αγωγούς όπως ορίζονται από τους επιστήμονες δεδομένων (κατά τη φάση της ανάλυσης δεδομένων εξερεύνησης). Αυτά τα σύνολα δεδομένων μπορούν να χωριστούν σε ιστορικά δεδομένα και δεδομένα για συμπεράσματα και δοκιμές. Όλα τα δεδομένα καταλογοποιούνται (για παράδειγμα, με τον Κατάλογο δεδομένων κόλλας AWS) και μπορούν να κοινοποιηθούν με άλλους λογαριασμούς και χρήστες χρησιμοποιώντας το Lake Formation ως επίπεδο διακυβέρνησης δεδομένων (για δομημένα δεδομένα). Από τη στιγμή που γράφεται αυτό το άρθρο, το Lake Formation είναι συμβατό μόνο με ερωτήματα Athena, AWS Glue jobs και Amazon EMR.

Από την άλλη πλευρά, το περιβάλλον MLOps πρέπει να ποτίζει τους αγωγούς ML με συγκεκριμένα σύνολα δεδομένων που βρίσκονται σε τοπικούς κάδους σε dev, pre-prod και prod. Το περιβάλλον dev είναι υπεύθυνο για την κατασκευή και την εκπαίδευση των μοντέλων κατά παραγγελία χρησιμοποιώντας αγωγούς SageMaker που αντλούν δεδομένα από τη λίμνη δεδομένων. Ως εκ τούτου, προτείνουμε ως πρώτο βήμα του αγωγού είτε να έχουμε ένα βήμα Athena, όπου απαιτείται μόνο δειγματοληψία δεδομένων και αναζήτηση, είτε ένα βήμα EMR του Amazon, εάν απαιτούνται πιο περίπλοκοι μετασχηματισμοί. Εναλλακτικά, θα μπορούσατε να χρησιμοποιήσετε μια εργασία κόλλας AWS μέσω ενός βήματος επιστροφής κλήσης, αλλά όχι ως εγγενές βήμα ακόμη με το SageMaker Pipelines.

Το pre-prod και το prod είναι υπεύθυνο είτε για τη δοκιμή είτε για τη διεξαγωγή συμπερασμάτων σε πραγματικό χρόνο και παρτίδας. Στην περίπτωση συμπερασμάτων σε πραγματικό χρόνο, η αποστολή δεδομένων στους λογαριασμούς MLOps pre-prod και prod δεν είναι απαραίτητη, επειδή η είσοδος για το συμπέρασμα μπορεί να επιστρέφει στο ωφέλιμο φορτίο του αιτήματος API Gateway. Στην περίπτωση συμπερασμάτων παρτίδας (ή δεδομένων εισόδου μεγάλου μεγέθους), τα απαραίτητα σύνολα δεδομένων, είτε δεδομένα δοκιμής είτε δεδομένα για συμπέρασμα, πρέπει να προσγειωθούν στους τοπικούς κάδους δεδομένων ML (προ-παραγωγή ή παραγωγή). Έχετε δύο επιλογές για τη μετακίνηση δεδομένων σε pre-prod και prod: είτε ενεργοποιώντας το Athena ή Amazon EMR και τραβώντας δεδομένα από τη λίμνη δεδομένων, είτε προωθώντας δεδομένα από τη λίμνη δεδομένων σε αυτούς τους λογαριασμούς MLOps. Η πρώτη επιλογή απαιτεί την ανάπτυξη πρόσθετων μηχανισμών στους λογαριασμούς MLOps, για παράδειγμα, δημιουργία προγραμματισμένων συμβάντων EventBridge (χωρίς γνώση εάν τα δεδομένα στη λίμνη δεδομένων έχουν ενημερωθεί) ή άφιξη δεδομένων σε συμβάντα S3 EventBridge στη λίμνη δεδομένων (για περισσότερες λεπτομέρειες, βλ Απλοποίηση της πρόσβασης μεταξύ λογαριασμών με τις πολιτικές πόρων του Amazon EventBridge). Αφού καταλάβετε το συμβάν στην πλευρά MLOps, ένα ερώτημα Athena ή το Amazon EMR μπορεί να ανακτήσει δεδομένα τοπικά και να ενεργοποιήσει ασύγχρονη συμπέρασμα or μετασχηματισμός παρτίδας. Αυτό μπορεί να τυλιχθεί σε μια διοχέτευση SageMaker για απλότητα. Η δεύτερη επιλογή είναι να προσθέσετε στο τελευταίο βήμα του αγωγού ETL τη λειτουργία ώθησης δεδομένων στους κάδους MLOps. Ωστόσο, αυτή η προσέγγιση συνδυάζει τις ευθύνες (η λίμνη δεδομένων ενεργοποιεί το συμπέρασμα) και απαιτεί από το Lake Formation να παρέχει πρόσβαση στη λίμνη δεδομένων για εγγραφή στους κάδους MLOps.

Το τελευταίο βήμα είναι να μετακινήσετε τα αποτελέσματα συμπερασμάτων πίσω στη λίμνη δεδομένων. Για να καταλογίσετε τα δεδομένα και να τα καταστήσετε διαθέσιμα σε άλλους χρήστες, τα δεδομένα θα πρέπει να επιστρέψουν ως νέα πηγή δεδομένων πίσω στον κάδο προσγείωσης.

Κλιμακόμενη Φάση

Μετά την ανάπτυξη του ιδρύματος MLOps και την παραγωγή από άκρο σε άκρο της πρώτης περίπτωσης χρήσης ML, η υποδομή των dev, pre-prod, prod και του αποθετηρίου, του αγωγού CI/CD και της δομής δεδομένων έχουν δοκιμαστεί και οριστικοποιηθεί . Το επόμενο βήμα είναι η ενσωμάτωση νέων περιπτώσεων χρήσης ML και ομάδων στην πλατφόρμα. Για να διασφαλίσετε την ταχύτητα προς τιμή, το SageMaker σάς επιτρέπει να δημιουργείτε προσαρμοσμένα πρότυπα έργου SageMaker, τα οποία μπορείτε να χρησιμοποιήσετε για να δημιουργήσετε αυτόματα αποθετήρια προτύπων και αγωγούς CI/CD. Με τέτοια πρότυπα έργων SageMaker, οι κύριοι επιστήμονες δεδομένων είναι υπεύθυνοι για τη δημιουργία νέων έργων και την κατανομή μιας αποκλειστικής ομάδας ανά νέα περίπτωση χρήσης ML.

Το παρακάτω διάγραμμα απεικονίζει αυτή τη διαδικασία.

Ρύθμιση λογαριασμού φάσης με δυνατότητα κλιμάκωσης

Το πρόβλημα γίνεται πιο περίπλοκο εάν διαφορετικές ομάδες επιστημόνων δεδομένων (ή πολλές επιχειρηματικές μονάδες που πρέπει να παράγουν ML) έχουν πρόσβαση σε διαφορετικά εμπιστευτικά δεδομένα και πολλοί κάτοχοι προϊόντων είναι υπεύθυνοι για την πληρωμή ξεχωριστού λογαριασμού για την εκπαίδευση, την ανάπτυξη και τη λειτουργία των μοντέλων . Επομένως, είναι απαραίτητο ένα ξεχωριστό σύνολο λογαριασμών MLOps (πειραματισμός, dev, pre-prod και prod) ανά ομάδα. Για να επιτρέψουμε την εύκολη δημιουργία νέων λογαριασμών MLOps, εισάγουμε έναν άλλο λογαριασμό, τον προηγμένο λογαριασμό διακυβέρνησης αναλυτικών στοιχείων, στον οποίο έχουν πρόσβαση τα μέλη IT και τους επιτρέπει να καταλογοποιούν, να δημιουργούν στιγμιότυπα ή να παροπλίζουν λογαριασμούς MLOps κατόπιν ζήτησης. Συγκεκριμένα, αυτός ο λογαριασμός φιλοξενεί αποθετήρια με τον κωδικό υποδομής των λογαριασμών MLOps (VPC, υποδίκτυα, τελικά σημεία, κάδοι, Διαχείριση ταυτότητας και πρόσβασης AWS ρόλοι και πολιτικές (IAM), AWS CloudFormation στοίβες), an Κατάλογος υπηρεσιών AWS προϊόν για αυτόματη ανάπτυξη των στοίβων CloudFormation της υποδομής στους πολλαπλούς λογαριασμούς με ένα κλικ και Amazon DynamoDB μεταδεδομένα πίνακα σε κατάλογο, όπως ποια ομάδα είναι υπεύθυνη για κάθε σύνολο λογαριασμών. Με αυτή τη δυνατότητα, η ομάδα IT δημιουργεί λογαριασμούς MLOps κατά παραγγελία και εκχωρεί τους απαραίτητους χρήστες, πρόσβαση σε δεδομένα ανά λογαριασμό και συνεπείς περιορισμούς ασφαλείας.

Με βάση αυτό το σενάριο, διαχωρίζουμε τους λογαριασμούς σε εφήμερους και ανθεκτικούς. Το Data Lake και το Tooling είναι λογαριασμοί με διάρκεια και παίζουν το ρόλο ενός μόνο σημείου αλήθειας για τα δεδομένα και τον πηγαίο κώδικα, αντίστοιχα. Οι λογαριασμοί MLOps είναι ως επί το πλείστον ανιθαγενείς και εγκαθίστανται ή παροπλίζονται κατόπιν αιτήματος, καθιστώντας τους εφήμερους. Ακόμα κι αν ένα σύνολο λογαριασμών MLOps έχει παροπλιστεί, οι χρήστες ή οι ελεγκτές μπορούν να ελέγχουν προηγούμενα πειράματα και αποτελέσματα επειδή είναι αποθηκευμένα σε ανθεκτικά περιβάλλοντα.

Εάν θέλετε να χρησιμοποιήσετε το Studio UI για MLOps, ο λογαριασμός εργαλείων είναι μέρος του λογαριασμού dev, όπως φαίνεται στην παρακάτω εικόνα.

Ρύθμιση λογαριασμού φάσης με δυνατότητα κλιμάκωσης με λογαριασμό εργαλείων εντός του λογαριασμού προγραμματισμού

Εάν ο χρήστης θέλει να χρησιμοποιήσει το Sagemaker Studio UI για MLOps, ο λογαριασμός εργαλείων αποτελεί μέρος του προγραμματιστή
λογαριασμό σύμφωνα με το παραπάνω σχήμα. Παράδειγμα πηγαίου κώδικα αυτού του ιδρύματος MLOPs μπορεί να βρεθεί στο
Ασφαλής βάση MLOps πολλαπλών λογαριασμών με βάση το CDK.

Σημειώστε ότι το Sagemaker παρέχει τη δυνατότητα αντικατάστασης του CodeCommit και του CodePipeline από άλλα εργαλεία ανάπτυξης τρίτων, όπως το GitHub και το Jenkins (περισσότερες λεπτομέρειες μπορείτε να βρείτε στο Δημιουργήστε έργα Amazon SageMaker χρησιμοποιώντας έλεγχο πηγής τρίτου μέρους και Jenkins και Amazon SageMaker Projects MLOps Πρότυπο με GitLab και GitLab Pipelines).

Σύνοψη προσώπων, λειτουργιών και τεχνολογίας

Με το μοντέλο ωριμότητας MLOps, μπορούμε να ορίσουμε έναν σαφή οδικό χάρτη αρχιτεκτονικής σχεδίασης και παράδοσης. Ωστόσο, κάθε πρόσωπο πρέπει να έχει σαφή εικόνα των βασικών λογαριασμών και υπηρεσιών AWS με τις οποίες πρέπει να αλληλεπιδρά και τις λειτουργίες που πρέπει να διεξάγει. Το παρακάτω διάγραμμα συνοψίζει αυτές τις κατηγορίες.

Ο οδικός χάρτης του θεμελίου MLOps για επιχειρήσεις με το Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Συμπέρασμα

Ένα ισχυρό ίδρυμα MLOps, το οποίο ορίζει ξεκάθαρα την αλληλεπίδραση μεταξύ πολλών προσώπων και τεχνολογίας, μπορεί να αυξήσει την ταχύτητα προς την αξία και να μειώσει το κόστος και να επιτρέψει στους επιστήμονες δεδομένων να επικεντρωθούν στις καινοτομίες. Σε αυτήν την ανάρτηση, δείξαμε πώς να οικοδομήσουμε μια τέτοια βάση σε φάσεις, οδηγώντας σε ένα ομαλό μοντέλο ωριμότητας MLOps για την επιχείρηση και την ικανότητα υποστήριξης πολλαπλών ομάδων επιστήμης δεδομένων και περιπτώσεων χρήσης ML στην παραγωγή. Ορίσαμε ένα μοντέλο λειτουργίας που αποτελείται από πολλαπλά πρόσωπα με πολλαπλές δεξιότητες και ευθύνες. Τέλος, μοιραστήκαμε παραδείγματα για τον τρόπο τυποποίησης της ανάπτυξης κώδικα (αποθετήρια και αγωγοί CI/CD), αποθήκευση και κοινή χρήση δεδομένων και παροχή ασφαλούς υποδομής MLOps για εταιρικά περιβάλλοντα. Πολλοί εταιρικοί πελάτες έχουν υιοθετήσει αυτήν την προσέγγιση και είναι σε θέση να παράγουν τις λύσεις ML τους εντός ημερών αντί για μήνες.

Αν έχετε σχόλια ή ερωτήσεις, αφήστε τα στην ενότητα σχολίων.

Σχετικά με το Συγγραφέας

Ο οδικός χάρτης του θεμελίου MLOps για επιχειρήσεις με το Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Δρ Σωκράτης Καρτάκης είναι Ανώτερος Αρχιτέκτονας Λύσεων Specialist Machine Learning για τις Υπηρεσίες Ιστού της Amazon. Ο Σωκράτης εστιάζει στο να δώσει τη δυνατότητα στους εταιρικούς πελάτες να βιομηχανοποιήσουν τις λύσεις Μηχανικής Μάθησης (ML) αξιοποιώντας τις υπηρεσίες AWS και διαμορφώνοντας το μοντέλο λειτουργίας τους, π.χ. το ίδρυμα MLOps και τον οδικό χάρτη μετασχηματισμού αξιοποιώντας βέλτιστες πρακτικές ανάπτυξης. Έχει ξοδέψει 15+ χρόνια για την εφεύρεση, το σχεδιασμό, την ηγεσία και την εφαρμογή καινοτόμων λύσεων ML και Internet of Things (IoT) σε επίπεδο παραγωγής από άκρο σε άκρο στους τομείς της ενέργειας, του λιανικού εμπορίου, της υγείας, των χρηματοοικονομικών/τραπεζικών, των μηχανοκίνητων αθλημάτων κ.λπ. Ο Σωκράτης αρέσκεται να περνά τον ελεύθερο χρόνο του με την οικογένεια και τους φίλους του ή κάνοντας μοτοσικλέτες.

Ο οδικός χάρτης του θεμελίου MLOps για επιχειρήσεις με το Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Γεώργιος Σχινάς είναι Ειδικός Αρχιτέκτονας Λύσεων για AI/ML στην περιοχή EMEA. Έχει έδρα στο Λονδίνο και συνεργάζεται στενά με πελάτες στο Ηνωμένο Βασίλειο και την Ιρλανδία. Ο Georgios βοηθά τους πελάτες να σχεδιάσουν και να αναπτύξουν εφαρμογές μηχανικής εκμάθησης στην παραγωγή σε AWS με ιδιαίτερο ενδιαφέρον για τις πρακτικές MLOps και δίνοντας τη δυνατότητα στους πελάτες να εκτελούν μηχανική εκμάθηση σε κλίμακα. Στον ελεύθερο χρόνο του, του αρέσει να ταξιδεύει, να μαγειρεύει και να περνά χρόνο με φίλους και οικογένεια.

Giuseppe Angelo Porcelli είναι Κύριος Αρχιτέκτονας Λύσεων Specialist Machine Learning για τις Υπηρεσίες Ιστού της Amazon. Με πολλά χρόνια μηχανικής λογισμικού με υπόβαθρο ML, συνεργάζεται με πελάτες οποιουδήποτε μεγέθους για να κατανοήσει σε βάθος τις επιχειρηματικές και τεχνικές τους ανάγκες και να σχεδιάσει λύσεις AI και Machine Learning που αξιοποιούν καλύτερα το AWS Cloud και τη στοίβα Machine Learning της Amazon. Έχει εργαστεί σε έργα σε διαφορετικούς τομείς, όπως MLOps, Computer Vision, NLP, και περιλαμβάνει ένα ευρύ σύνολο υπηρεσιών AWS. Στον ελεύθερο χρόνο του, ο Τζουζέπε απολαμβάνει το ποδόσφαιρο.

Shelbee Eigenbrode είναι κύριος αρχιτέκτονας λύσεων τεχνητής νοημοσύνης και μηχανικής μάθησης στο Amazon Web Services (AWS). Ασχολείται με την τεχνολογία για 24 χρόνια, εκτείνοντας πολλούς κλάδους, τεχνολογίες και ρόλους. Αυτήν τη στιγμή εστιάζει στο να συνδυάσει το ιστορικό DevOps και ML στον τομέα των MLOps για να βοηθήσει τους πελάτες να προσφέρουν και να διαχειρίζονται φόρτους εργασίας ML σε κλίμακα. Με πάνω από 35 διπλώματα ευρεσιτεχνίας που έχουν χορηγηθεί σε διάφορους τομείς τεχνολογίας, έχει πάθος για συνεχή καινοτομία και χρήση δεδομένων για την επίτευξη επιχειρηματικών αποτελεσμάτων. Η Shelbee είναι συνδημιουργός και εκπαιδευτής της εξειδίκευσης της Practical Data Science στο Coursera. Είναι επίσης η συν-διευθύντρια του Women In Big Data (WiBD), κεφάλαιο Ντένβερ. Στον ελεύθερο χρόνο της, της αρέσει να περνά χρόνο με την οικογένειά της, τους φίλους και τα υπερδραστήρια σκυλιά.

Σφραγίδα ώρας: Ιούνιος 24, 2022

Σφραγίδα ώρας: 11 Αυγούστου 2022

Αναδημοσίευση από τον Πλάτωνα

Ανάπτυξη προηγμένων συστημάτων μηχανικής εκμάθησης στο Trumid με τη Βιβλιοθήκη Deep Graph for Knowledge Embedding

Ενεργοποίηση CI/CD τελικών σημείων Amazon SageMaker σε πολλές περιοχές

Βελτιώστε την ακρίβεια μεταγραφής των κλήσεων πελατών-πρακτόρων με προσαρμοσμένο λεξιλόγιο στο Amazon Transcribe

Δημιουργήστε ήχο για περιεχόμενο σε πολλές γλώσσες με την ίδια φωνή TTS στο Amazon Polly

Χρησιμοποιήστε το ADFS OIDC ως IdP για ένα ιδιωτικό εργατικό δυναμικό της Amazon SageMaker Ground Truth

Η λιτότητα συναντά την ακρίβεια: Οικονομική εκπαίδευση των μοντέλων GPT NeoX και Pythia με το AWS Trainium | Υπηρεσίες Ιστού της Amazon

Ανακοινώνουμε την κυκλοφορία της δυνατότητας αντιγραφής μοντέλου για τις προσαρμοσμένες ετικέτες αναγνώρισης Amazon

Το Intuitivo επιτυγχάνει υψηλότερη απόδοση ενώ εξοικονομεί κόστος AI/ML χρησιμοποιώντας το AWS Inferentia και το PyTorch | Υπηρεσίες Ιστού της Amazon

Δημιουργήστε έναν ανιχνευτή ανεπιθύμητης αλληλογραφίας χρησιμοποιώντας το Amazon SageMaker | Υπηρεσίες Ιστού της Amazon

Δημιουργήστε μια λύση ανίχνευσης απάτης σε πραγματικό χρόνο που βασίζεται σε GNN χρησιμοποιώντας το Amazon SageMaker, το Amazon Neptune και τη Βιβλιοθήκη Deep Graph

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός