Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1

Οργανισμοί σε διάφορους κλάδους χρησιμοποιούν την τεχνητή νοημοσύνη (AI) και τη μηχανική μάθηση (ML) για να λύσουν επιχειρηματικές προκλήσεις ειδικά για τον κλάδο τους. Για παράδειγμα, στον κλάδο των χρηματοοικονομικών υπηρεσιών, μπορείτε να χρησιμοποιήσετε AI και ML για να λύσετε προκλήσεις σχετικά με τον εντοπισμό απάτης, την πρόβλεψη πιστωτικού κινδύνου, το άμεσο μάρκετινγκ και πολλά άλλα.

Μερικές φορές οι μεγάλες επιχειρήσεις δημιουργούν ένα κέντρο αριστείας (CoE) για να αντιμετωπίσουν τις ανάγκες διαφορετικών τομέων επιχειρήσεων (LoBs) με καινοτόμα έργα ανάλυσης και ML.

Για να δημιουργήσουν μοντέλα ML υψηλής ποιότητας και απόδοσης σε κλίμακα, πρέπει να κάνουν τα εξής:

  • Παρέχετε έναν εύκολο τρόπο πρόσβασης σε σχετικά δεδομένα στα αναλυτικά στοιχεία τους και στο ML CoE
  • Δημιουργήστε υπευθυνότητα στους παρόχους δεδομένων από μεμονωμένα LoB για να μοιραστείτε επιμελημένα στοιχεία δεδομένων που είναι ανιχνεύσιμα, κατανοητά, διαλειτουργικά και αξιόπιστα

Αυτό μπορεί να μειώσει τον μεγάλο χρόνο του κύκλου για τη μετατροπή των περιπτώσεων χρήσης ML από πείραμα σε παραγωγή και να δημιουργήσει επιχειρηματική αξία σε ολόκληρο τον οργανισμό.

Μια αρχιτεκτονική πλέγματος δεδομένων προσπαθεί να λύσει αυτές τις τεχνικές και οργανωτικές προκλήσεις εισάγοντας μια αποκεντρωμένη κοινωνικο-τεχνική προσέγγιση για κοινή χρήση, πρόσβαση και διαχείριση δεδομένων σε σύνθετα και μεγάλης κλίμακας περιβάλλοντα - εντός ή μεταξύ των οργανισμών. Το μοτίβο σχεδιασμού πλέγματος δεδομένων δημιουργεί ένα υπεύθυνο μοντέλο κοινής χρήσης δεδομένων που ευθυγραμμίζεται με την οργανωτική ανάπτυξη για την επίτευξη του απώτερου στόχου της αύξησης της απόδοσης των επιχειρηματικών επενδύσεων στις ομάδες δεδομένων, τη διαδικασία και την τεχνολογία.

Σε αυτήν τη σειρά δύο μερών, παρέχουμε καθοδήγηση σχετικά με το πώς οι οργανισμοί μπορούν να δημιουργήσουν μια σύγχρονη αρχιτεκτονική δεδομένων χρησιμοποιώντας ένα μοτίβο σχεδίασης πλέγματος δεδομένων στο AWS και να επιτρέψουν σε ένα αναλυτικό σύστημα ανάλυσης και ML CoE να δημιουργήσει και να εκπαιδεύσει μοντέλα ML με δεδομένα σε πολλαπλά LoB. Χρησιμοποιούμε ένα παράδειγμα οργανισμού χρηματοπιστωτικών υπηρεσιών για να ορίσουμε το πλαίσιο και την περίπτωση χρήσης αυτής της σειράς.

Σε αυτήν την πρώτη ανάρτηση, παρουσιάζουμε τις διαδικασίες ρύθμισης μιας αρχιτεκτονικής πλέγματος δεδομένων με πολλούς λογαριασμούς παραγωγού και καταναλωτή δεδομένων AWS. Στη συνέχεια, εστιάζουμε σε ένα προϊόν δεδομένων, το οποίο ανήκει σε ένα LoB εντός του χρηματοπιστωτικού οργανισμού, και πώς μπορεί να κοινοποιηθεί σε ένα περιβάλλον πλέγματος δεδομένων για να επιτρέψει σε άλλα LoB να καταναλώσουν και να χρησιμοποιήσουν αυτό το προϊόν δεδομένων. Αυτό στοχεύει κυρίως το πρόσωπο του διαχειριστή δεδομένων, το οποίο είναι υπεύθυνο για τον εξορθολογισμό και την τυποποίηση της διαδικασίας κοινής χρήσης δεδομένων μεταξύ παραγωγών και καταναλωτών δεδομένων και τη διασφάλιση της συμμόρφωσης με τους κανόνες διακυβέρνησης δεδομένων.

Στη δεύτερη ανάρτηση, δείχνουμε ένα παράδειγμα του τρόπου με τον οποίο ένα analytics και ML CoE μπορούν να καταναλώσουν το προϊόν δεδομένων για μια περίπτωση χρήσης πρόβλεψης κινδύνου. Αυτό στοχεύει κυρίως την προσωπικότητα του επιστήμονα δεδομένων, ο οποίος είναι υπεύθυνος για τη χρήση στοιχείων δεδομένων τόσο σε επίπεδο οργανισμού όσο και τρίτων για τη δημιουργία και την εκπαίδευση μοντέλων ML που εξάγουν επιχειρηματικές πληροφορίες για τη βελτίωση της εμπειρίας των πελατών χρηματοοικονομικών υπηρεσιών.

Επισκόπηση πλέγματος δεδομένων

Η ιδρυτής του μοτίβου πλέγματος δεδομένων, Zhamak Dehghani στο βιβλίο της Πλέγμα δεδομένων που παρέχει αξία βάσει δεδομένων σε κλίμακα, καθόρισε τέσσερις αρχές για τον στόχο του πλέγματος δεδομένων:

  • Κατανεμημένη ιδιοκτησία τομέα – Επιδίωξη μιας οργανωτικής μετατόπισης από την κεντρική ιδιοκτησία δεδομένων από ειδικούς που εκτελούν τις τεχνολογίες της πλατφόρμας δεδομένων σε ένα αποκεντρωμένο μοντέλο ιδιοκτησίας δεδομένων, ωθώντας την ιδιοκτησία και τη λογοδοσία των δεδομένων πίσω στα LoBs όπου παράγονται ή καταναλώνονται τα δεδομένα (τομείς ευθυγραμμισμένοι με πηγή) τομείς ευθυγραμμισμένοι με την κατανάλωση).
  • Τα δεδομένα ως προϊόν – Προώθηση της λογοδοσίας της κοινής χρήσης επιμελημένων, υψηλής ποιότητας, διαλειτουργικών και ασφαλών στοιχείων. Επομένως, οι παραγωγοί δεδομένων από διαφορετικά LoB είναι υπεύθυνοι για τη δημιουργία δεδομένων σε αναλώσιμη μορφή απευθείας στην πηγή.
  • Αναλύσεις αυτοεξυπηρέτησης – Εξορθολογισμός της εμπειρίας των χρηστών δεδομένων αναλυτικών στοιχείων και ML, ώστε να μπορούν να ανακαλύπτουν, να έχουν πρόσβαση και να χρησιμοποιούν προϊόντα δεδομένων με τα εργαλεία που προτιμούν. Επιπλέον, για τον εξορθολογισμό της εμπειρίας των παρόχων δεδομένων LoB για τη δημιουργία, ανάπτυξη και διατήρηση προϊόντων δεδομένων μέσω συνταγών και επαναχρησιμοποιήσιμων στοιχείων και προτύπων.
  • Ομοσπονδιακή υπολογιστική διακυβέρνηση – Να συνενώσει και να αυτοματοποιήσει τη λήψη αποφάσεων που εμπλέκεται στη διαχείριση και τον έλεγχο της πρόσβασης δεδομένων σε επίπεδο κατόχων δεδομένων από τα διαφορετικά LoB, κάτι που εξακολουθεί να είναι σύμφωνο με τις νομικές πολιτικές, τις πολιτικές συμμόρφωσης και ασφάλειας του ευρύτερου οργανισμού που τελικά επιβάλλονται μέσω το πλέγμα.

Η AWS παρουσίασε το όραμά της για τη δημιουργία ενός πλέγματος δεδομένων πάνω από το AWS σε διάφορες αναρτήσεις:

  • Πρώτον, εστιάσαμε στο οργανωτικό μέρος που σχετίζεται με την κατανεμημένη ιδιοκτησία τομέα και τα δεδομένα ως αρχές προϊόντος. Οι συγγραφείς περιέγραψαν το όραμα της ευθυγράμμισης πολλαπλών LOBs σε ολόκληρο τον οργανισμό προς μια στρατηγική προϊόντων δεδομένων που παρέχει στους τομείς ευθυγραμμισμένους με την κατανάλωση εργαλεία για να βρουν και να αποκτήσουν τα δεδομένα που χρειάζονται, ενώ εγγυάται τον απαραίτητο έλεγχο γύρω από τη χρήση αυτών των δεδομένων εισάγοντας υπευθυνότητα για τους τομείς στοιχισμένους με την πηγή για να παρέχουν προϊόντα δεδομένων έτοιμα για χρήση απευθείας στην πηγή. Για περισσότερες πληροφορίες, ανατρέξτε στο Πώς η JPMorgan Chase δημιούργησε μια αρχιτεκτονική πλέγματος δεδομένων για να αποφέρει σημαντική αξία για να βελτιώσει την εταιρική πλατφόρμα δεδομένων της.
  • Στη συνέχεια, επικεντρωθήκαμε στο τεχνικό μέρος που σχετίζεται με την κατασκευή προϊόντων δεδομένων, την ανάλυση αυτοεξυπηρέτησης και τις αρχές της ομοσπονδιακής υπολογιστικής διακυβέρνησης. Οι συγγραφείς περιέγραψαν τις βασικές υπηρεσίες AWS που εξουσιοδοτούν τους τομείς με ευθυγράμμιση προέλευσης να δημιουργούν και να μοιράζονται προϊόντα δεδομένων, μια μεγάλη ποικιλία υπηρεσιών που μπορούν να επιτρέψουν σε τομείς ευθυγραμμισμένους με καταναλωτές να καταναλώνουν προϊόντα δεδομένων με διαφορετικούς τρόπους με βάση τα εργαλεία που προτιμούν και τις περιπτώσεις χρήσης που εργάζονται προς την κατεύθυνση και, τέλος, τις υπηρεσίες AWS που διέπουν τη διαδικασία κοινής χρήσης δεδομένων επιβάλλοντας πολιτικές πρόσβασης στα δεδομένα. Για περισσότερες πληροφορίες, ανατρέξτε στο Σχεδιάστε μια αρχιτεκτονική πλέγματος δεδομένων χρησιμοποιώντας AWS Lake Formation και AWS Glue.
  • Δείξαμε επίσης μια λύση για την αυτοματοποίηση της ανακάλυψης δεδομένων και του ελέγχου πρόσβασης μέσω μιας κεντρικής διεπαφής χρήστη πλέγματος δεδομένων. Για περισσότερες λεπτομέρειες, ανατρέξτε στο Δημιουργήστε μια ροή εργασίας κοινής χρήσης δεδομένων με το AWS Lake Formation για το πλέγμα δεδομένων σας.

Περίπτωση χρήσης χρηματοοικονομικών υπηρεσιών

Συνήθως, οι μεγάλοι οργανισμοί χρηματοοικονομικών υπηρεσιών διαθέτουν πολλαπλά LoBs, όπως καταναλωτική τραπεζική, επενδυτική τραπεζική και διαχείριση περιουσιακών στοιχείων, καθώς και μία ή περισσότερες ομάδες ανάλυσης και ML CoE. Κάθε LoB παρέχει διαφορετικές υπηρεσίες:

  • Το καταναλωτικό τραπεζικό LoB παρέχει μια ποικιλία υπηρεσιών σε καταναλωτές και επιχειρήσεις, όπως πίστωση και στεγαστικά δάνεια, διαχείριση μετρητών, λύσεις πληρωμών, προϊόντα καταθέσεων και επενδύσεων και άλλα
  • Το LoB εμπορικής ή επενδυτικής τραπεζικής προσφέρει ολοκληρωμένες χρηματοοικονομικές λύσεις, όπως δανεισμό, κίνδυνο πτώχευσης και πληρωμές χονδρικής σε πελάτες, συμπεριλαμβανομένων μικρών επιχειρήσεων, μεσαίου μεγέθους και μεγάλων εταιρειών
  • Το LoB διαχείρισης περιουσιακών στοιχείων παρέχει συνταξιοδοτικά προϊόντα και επενδυτικές υπηρεσίες σε όλες τις κατηγορίες περιουσιακών στοιχείων

Κάθε LoB ορίζει τα δικά του προϊόντα δεδομένων, τα οποία επιμελούνται άτομα που κατανοούν τα δεδομένα και είναι τα πλέον κατάλληλα για να προσδιορίσουν ποιος είναι εξουσιοδοτημένος να τα χρησιμοποιεί και πώς μπορεί να χρησιμοποιηθεί. Αντίθετα, άλλα LoBs και τομείς εφαρμογών, όπως το analytics και το ML CoE, ενδιαφέρονται να ανακαλύψουν και να καταναλώσουν κατάλληλα προϊόντα δεδομένων, να τα συνδυάσουν για να δημιουργήσουν πληροφορίες και να λάβουν αποφάσεις βάσει δεδομένων.

Η παρακάτω εικόνα απεικονίζει ορισμένα LoB και παραδείγματα προϊόντων δεδομένων που μπορούν να μοιραστούν. Δείχνει επίσης τους καταναλωτές προϊόντων δεδομένων, όπως το analytics και το ML CoE, οι οποίοι δημιουργούν μοντέλα ML που μπορούν να αναπτυχθούν σε εφαρμογές που απευθύνονται σε πελάτες για να βελτιώσουν περαιτέρω την εμπειρία του τελικού πελάτη.

Ακολουθώντας την κοινωνικο-τεχνική έννοια του πλέγματος δεδομένων, ξεκινάμε με την κοινωνική πτυχή με ένα σύνολο οργανωτικών βημάτων, όπως τα ακόλουθα:

  • Χρησιμοποιώντας ειδικούς τομέα για τον καθορισμό ορίων για κάθε τομέα, ώστε κάθε προϊόν δεδομένων να μπορεί να αντιστοιχιστεί σε έναν συγκεκριμένο τομέα
  • Προσδιορισμός κατόχων για προϊόντα δεδομένων που παρέχονται από κάθε τομέα, έτσι ώστε κάθε προϊόν δεδομένων να έχει μια στρατηγική που ορίζεται από τον κάτοχό του
  • Προσδιορισμός πολιτικών διακυβέρνησης από παγκόσμια και τοπικά ή ομοσπονδιακά κίνητρα, έτσι ώστε όταν οι καταναλωτές δεδομένων έχουν πρόσβαση σε ένα συγκεκριμένο προϊόν δεδομένων, η πολιτική πρόσβασης που σχετίζεται με το προϊόν μπορεί να επιβληθεί αυτόματα μέσω ενός κεντρικού επιπέδου διακυβέρνησης δεδομένων

Στη συνέχεια περνάμε στην τεχνική πτυχή, η οποία περιλαμβάνει το ακόλουθο σενάριο από άκρο σε άκρο που ορίζεται στο προηγούμενο διάγραμμα:

  1. Ενισχύστε το LoB καταναλωτικής τραπεζικής με εργαλεία για τη δημιουργία ενός έτοιμου προς χρήση προϊόντος δεδομένων προφίλ καταναλωτικής πίστης.
  2. Επιτρέψτε στο καταναλωτικό τραπεζικό LoB να μοιράζεται προϊόντα δεδομένων στο επίπεδο κεντρικής διακυβέρνησης.
  3. Ενσωματώστε παγκόσμιους και ομοσπονδιακούς ορισμούς των πολιτικών πρόσβασης δεδομένων που θα πρέπει να επιβάλλονται κατά την πρόσβαση στο προϊόν δεδομένων προφίλ καταναλωτικής πίστης μέσω της κεντρικής διακυβέρνησης δεδομένων.
  4. Επιτρέψτε στο analytics και το ML CoE να ανακαλύψουν και να αποκτήσουν πρόσβαση στο προϊόν δεδομένων μέσω του επιπέδου κεντρικής διακυβέρνησης.
  5. Ενισχύστε τα analytics και το ML CoE με εργαλεία για τη χρήση του προϊόντος δεδομένων για τη δημιουργία και εκπαίδευση ενός μοντέλου πρόβλεψης πιστωτικού κινδύνου. Δεν καλύπτουμε τα τελικά βήματα (6 και 7 στο προηγούμενο διάγραμμα) σε αυτήν τη σειρά. Ωστόσο, για να δείξουμε την επιχειρηματική αξία που ένα τέτοιο μοντέλο ML μπορεί να φέρει στον οργανισμό σε ένα από άκρο σε άκρο σενάριο, παρουσιάζουμε τα ακόλουθα:
  6. Αυτό το μοντέλο θα μπορούσε αργότερα να αναπτυχθεί και πάλι σε συστήματα που απευθύνονται σε πελάτες, όπως μια διαδικτυακή πύλη καταναλωτικών τραπεζών ή μια εφαρμογή για κινητά.
  7. Μπορεί να χρησιμοποιηθεί ειδικά στην αίτηση δανείου για την αξιολόγηση του προφίλ κινδύνου των αιτημάτων πίστωσης και στεγαστικών δανείων.

Στη συνέχεια, περιγράφουμε τις τεχνικές ανάγκες καθενός από τα εξαρτήματα.

Βαθιά βουτιά στις τεχνικές ανάγκες

Για να είναι διαθέσιμα τα προϊόντα δεδομένων για όλους, οι οργανισμοί πρέπει να διευκολύνουν την κοινή χρήση δεδομένων μεταξύ διαφορετικών οντοτήτων σε ολόκληρο τον οργανισμό, διατηρώντας παράλληλα τον κατάλληλο έλεγχο πάνω σε αυτά, ή με άλλα λόγια, να εξισορροπούν την ευελιξία με τη σωστή διακυβέρνηση.

Καταναλωτής δεδομένων: Analytics και ML CoE

Οι καταναλωτές δεδομένων, όπως οι επιστήμονες δεδομένων από το analytics και το ML CoE, πρέπει να είναι σε θέση να κάνουν τα εξής:

  • Ανακαλύψτε και αποκτήστε πρόσβαση σε σχετικά σύνολα δεδομένων για μια δεδομένη περίπτωση χρήσης
  • Να είστε βέβαιοι ότι τα σύνολα δεδομένων στα οποία θέλουν να έχουν πρόσβαση είναι ήδη επιμελημένα, ενημερωμένα και έχουν αξιόπιστες περιγραφές
  • Ζητήστε πρόσβαση σε σύνολα δεδομένων που ενδιαφέρουν τις επιχειρηματικές υποθέσεις τους
  • Χρησιμοποιήστε τα προτιμώμενα εργαλεία για την αναζήτηση και επεξεργασία τέτοιων συνόλων δεδομένων στο περιβάλλον τους για ML χωρίς την ανάγκη αναπαραγωγής δεδομένων από την αρχική απομακρυσμένη τοποθεσία ή για ανησυχία για πολυπλοκότητες μηχανικής ή υποδομής που σχετίζονται με την επεξεργασία δεδομένων που είναι φυσικά αποθηκευμένα σε μια απομακρυσμένη τοποθεσία
  • Λάβετε ειδοποίηση για τυχόν ενημερώσεις δεδομένων από τους κατόχους δεδομένων

Παραγωγός δεδομένων: Ιδιοκτησία τομέα

Οι παραγωγοί δεδομένων, όπως οι ομάδες τομέα από διαφορετικά LoB στον οργανισμό χρηματοοικονομικών υπηρεσιών, πρέπει να καταχωρούν και να μοιράζονται επιμελημένα σύνολα δεδομένων που περιέχουν τα ακόλουθα:

  • Τεχνικά και λειτουργικά μεταδεδομένα, όπως ονόματα και μεγέθη βάσεων δεδομένων και πινάκων, σχήματα στηλών και κλειδιά
  • Μεταδεδομένα επιχείρησης όπως περιγραφή δεδομένων, ταξινόμηση και ευαισθησία
  • Παρακολούθηση μεταδεδομένων όπως η εξέλιξη του σχήματος από την πηγή στη φόρμα στόχο και τυχόν ενδιάμεσες μορφές
  • Μεταδεδομένα ποιότητας δεδομένων, όπως αναλογίες ορθότητας και πληρότητας και μεροληψία δεδομένων
  • Πολιτικές και διαδικασίες πρόσβασης

Αυτά απαιτούνται για να επιτραπεί στους καταναλωτές δεδομένων να ανακαλύπτουν και να έχουν πρόσβαση σε δεδομένα χωρίς να βασίζονται σε μη αυτόματες διαδικασίες ή να χρειάζεται να επικοινωνήσουν με τους ειδικούς τομέα του προϊόντος δεδομένων για να αποκτήσουν περισσότερες γνώσεις σχετικά με την έννοια των δεδομένων και τον τρόπο πρόσβασης σε αυτά.

Διακυβέρνηση δεδομένων: Ανακάλυψη, προσβασιμότητα και δυνατότητα ελέγχου

Οι οργανισμοί πρέπει να εξισορροπούν τις ευκινησίες που παρουσιάστηκαν προηγουμένως με τον κατάλληλο μετριασμό των κινδύνων που σχετίζονται με τις διαρροές δεδομένων. Ιδιαίτερα σε ρυθμιζόμενες βιομηχανίες όπως οι χρηματοπιστωτικές υπηρεσίες, υπάρχει ανάγκη διατήρησης της κεντρικής διακυβέρνησης δεδομένων για την παροχή συνολικής πρόσβασης δεδομένων και ελέγχου ελέγχου με ταυτόχρονη μείωση του αποτυπώματος αποθήκευσης αποφεύγοντας πολλαπλά αντίγραφα των ίδιων δεδομένων σε διαφορετικές τοποθεσίες.

Στις παραδοσιακές κεντρικές αρχιτεκτονικές λιμνών δεδομένων, οι παραγωγοί δεδομένων συχνά δημοσιεύουν ακατέργαστα δεδομένα και μεταβιβάζουν την ευθύνη της επιμέλειας δεδομένων, της διαχείρισης ποιότητας δεδομένων και του ελέγχου πρόσβασης σε μηχανικούς δεδομένων και υποδομής σε μια κεντρική ομάδα πλατφόρμας δεδομένων. Ωστόσο, αυτές οι ομάδες πλατφόρμας δεδομένων ενδέχεται να είναι λιγότερο εξοικειωμένες με τους διάφορους τομείς δεδομένων και εξακολουθούν να βασίζονται στην υποστήριξη από τους παραγωγούς δεδομένων για να μπορούν να επιμελούνται και να διέπουν σωστά την πρόσβαση στα δεδομένα σύμφωνα με τις πολιτικές που επιβάλλονται σε κάθε τομέα δεδομένων. Αντίθετα, οι ίδιοι οι παραγωγοί δεδομένων βρίσκονται στην καλύτερη θέση για να παρέχουν επιμελημένα, πιστοποιημένα περιουσιακά στοιχεία δεδομένων και γνωρίζουν τις πολιτικές πρόσβασης για συγκεκριμένο τομέα που πρέπει να εφαρμόζονται κατά την πρόσβαση σε στοιχεία δεδομένων.

Επισκόπηση λύσεων

Το παρακάτω διάγραμμα δείχνει την αρχιτεκτονική υψηλού επιπέδου της προτεινόμενης λύσης.

Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αντιμετωπίζουμε την κατανάλωση δεδομένων από το analytics και το ML CoE με Αμαζόν Αθηνά και Amazon Sage Maker in μέρος 2 της σειράς αυτής.

Σε αυτήν την ανάρτηση, εστιάζουμε στη διαδικασία ενσωμάτωσης δεδομένων στο πλέγμα δεδομένων και περιγράφουμε πώς ένα μεμονωμένο LoB, όπως η ομάδα δεδομένων τομέα τραπεζικών καταναλωτών, μπορεί να χρησιμοποιήσει εργαλεία AWS, όπως Κόλλα AWS και AWS Glue Data Brew να προετοιμάσουν, να επιμεληθούν και να βελτιώσουν την ποιότητα των προϊόντων δεδομένων τους και στη συνέχεια να καταχωρήσουν αυτά τα προϊόντα δεδομένων στον κεντρικό λογαριασμό διακυβέρνησης δεδομένων μέσω Σχηματισμός Λίμνης AWS.

LoB καταναλωτικής τραπεζικής (παραγωγός δεδομένων)

Μία από τις βασικές αρχές του πλέγματος δεδομένων είναι η έννοια των δεδομένων ως προϊόντος. Είναι πολύ σημαντικό η ομάδα δεδομένων τομέα καταναλωτικής τραπεζικής να εργάζεται για την προετοιμασία προϊόντων δεδομένων που είναι έτοιμα για χρήση από τους καταναλωτές δεδομένων. Αυτό μπορεί να γίνει χρησιμοποιώντας εργαλεία εξαγωγής, μετασχηματισμού και φόρτωσης AWS (ETL) όπως το AWS Glue για την επεξεργασία ακατέργαστων δεδομένων που συλλέγονται σε Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), ή εναλλακτικά συνδεθείτε με τις λειτουργικές αποθήκες δεδομένων όπου παράγονται τα δεδομένα. Μπορείτε επίσης να χρησιμοποιήσετε DataBrew, το οποίο είναι ένα εργαλείο προετοιμασίας οπτικών δεδομένων χωρίς κώδικα που διευκολύνει τον καθαρισμό και την κανονικοποίηση δεδομένων.

Για παράδειγμα, κατά την προετοιμασία του προϊόντος δεδομένων προφίλ καταναλωτικής πίστης, η ομάδα δεδομένων τομέα καταναλωτικής τραπεζικής μπορεί να κάνει μια απλή επιμέλεια για να μεταφράσει από τα γερμανικά στα αγγλικά τα ονόματα χαρακτηριστικών των ακατέργαστων δεδομένων που ανακτώνται από το σύνολο δεδομένων ανοιχτού κώδικα Statlog Γερμανικά πιστωτικά στοιχεία, το οποίο αποτελείται από 20 χαρακτηριστικά και 1,000 σειρές.

Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Διακυβέρνηση δεδομένων

Η βασική υπηρεσία AWS για την ενεργοποίηση της διακυβέρνησης πλέγματος δεδομένων είναι το Lake Formation. Το Lake Formation προσφέρει τη δυνατότητα επιβολής διακυβέρνησης δεδομένων σε κάθε τομέα δεδομένων και σε όλους τους τομείς για να διασφαλιστεί ότι τα δεδομένα είναι εύκολα ανιχνεύσιμα και ασφαλή. Παρέχει ένα ενοποιημένο μοντέλο ασφάλειας που μπορεί να διαχειρίζεται κεντρικά, με βέλτιστες πρακτικές για την ανακάλυψη δεδομένων, την ασφάλεια και τη συμμόρφωση, ενώ επιτρέπει υψηλή ευελιξία σε κάθε τομέα.

Το Lake Formation προσφέρει ένα API για την απλοποίηση του τρόπου με τον οποίο τα δεδομένα απορροφώνται, αποθηκεύονται και διαχειρίζονται, μαζί με ασφάλεια σε επίπεδο σειράς για την προστασία των δεδομένων σας. Παρέχει επίσης λειτουργίες όπως λεπτομερή έλεγχο πρόσβασης, ρυθμιζόμενους πίνακες και βελτιστοποίηση αποθήκευσης.

Επιπλέον, το Lake Formations προσφέρει α API κοινής χρήσης δεδομένων που μπορείτε να χρησιμοποιήσετε για κοινή χρήση δεδομένων σε διαφορετικούς λογαριασμούς. Αυτό επιτρέπει στον καταναλωτή του Analytics και του ML CoE να εκτελεί ερωτήματα Athena που υποβάλλουν ερωτήματα και ενώνουν πίνακες σε πολλούς λογαριασμούς. Για περισσότερες πληροφορίες, ανατρέξτε στο Οδηγός προγραμματιστή AWS Lake Formation.

Διαχείριση πρόσβασης πόρων AWS (AWS RAM) παρέχει έναν ασφαλή τρόπο κοινής χρήσης πόρων μέσω Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) ρόλους και χρήστες σε λογαριασμούς AWS σε έναν οργανισμό ή οργανικές μονάδες (OU) σε Οργανισμοί AWS.

Το Lake Formation μαζί με το AWS RAM παρέχει έναν τρόπο διαχείρισης της κοινής χρήσης δεδομένων και της πρόσβασης στους λογαριασμούς AWS. Αναφερόμαστε σε αυτή την προσέγγιση ως Έλεγχος πρόσβασης βάσει RAM. Για περισσότερες λεπτομέρειες σχετικά με αυτήν την προσέγγιση, ανατρέξτε στο Δημιουργήστε μια ροή εργασίας κοινής χρήσης δεδομένων με το AWS Lake Formation για το πλέγμα δεδομένων σας.

Το Lake Formation προσφέρει επίσης έναν άλλο τρόπο διαχείρισης της κοινής χρήσης δεδομένων και της πρόσβασης χρησιμοποιώντας Ετικέτες σχηματισμός λίμνης. Αναφερόμαστε σε αυτή την προσέγγιση ως Έλεγχος πρόσβασης βάσει ετικετών. Για περισσότερες λεπτομέρειες, ανατρέξτε στο Δημιουργήστε μια σύγχρονη αρχιτεκτονική δεδομένων και μοτίβο πλέγματος δεδομένων σε κλίμακα χρησιμοποιώντας έλεγχο πρόσβασης βάσει ετικετών AWS Lake Formation.

Σε όλη αυτήν την ανάρτηση, χρησιμοποιούμε την προσέγγιση ελέγχου πρόσβασης που βασίζεται σε ετικέτες, επειδή απλοποιεί τη δημιουργία πολιτικών σε μικρότερο αριθμό λογικών ετικετών που βρίσκονται συνήθως σε διαφορετικά LoB αντί να καθορίζει πολιτικές για κατονομασμένους πόρους σε επίπεδο υποδομής.

Προϋποθέσεις

Για να ρυθμίσετε μια αρχιτεκτονική πλέγματος δεδομένων, χρειάζεστε τουλάχιστον τρεις λογαριασμούς AWS: έναν λογαριασμό παραγωγού, έναν κεντρικό λογαριασμό και έναν λογαριασμό καταναλωτή.

Αναπτύξτε το περιβάλλον πλέγματος δεδομένων

Για να αναπτύξετε ένα περιβάλλον πλέγματος δεδομένων, μπορείτε να χρησιμοποιήσετε τα ακόλουθα Αποθετήριο GitHub. Αυτό το αποθετήριο περιέχει τρία AWS CloudFormation πρότυπα που αναπτύσσουν ένα περιβάλλον πλέγματος δεδομένων που περιλαμβάνει κάθε έναν από τους λογαριασμούς (παραγωγός, κεντρικός και καταναλωτής). Μέσα σε κάθε λογαριασμό, μπορείτε να εκτελέσετε το αντίστοιχο πρότυπο CloudFormation.

Κεντρικός λογαριασμός

Στον κεντρικό λογαριασμό, ολοκληρώστε τα παρακάτω βήματα:

  1. Εκκινήστε τη στοίβα CloudFormation:
    Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Δημιουργήστε δύο χρήστες IAM:
    1. DataMeshOwner
    2. ProducerSteward
  3. Επιχορήγηση DataMeshOwner ως διαχειριστής του Σχηματισμού Λίμνης.
  4. Δημιουργήστε έναν ρόλο IAM:
    1. LFRegisterLocationServiceRole
  5. Δημιουργήστε δύο πολιτικές IAM:
    1. ProducerStewardPolicy
    2. S3DataLakePolicy
  6. Δημιουργήστε την πιστωτική κάρτα βάσης δεδομένων για ProducerSteward στον λογαριασμό παραγωγού.
  7. Κοινή χρήση της άδειας τοποθεσίας δεδομένων στον λογαριασμό παραγωγού.

Λογαριασμός παραγωγού

Στον λογαριασμό παραγωγού, ολοκληρώστε τα παρακάτω βήματα:

  1. Εκκινήστε τη στοίβα CloudFormation:
    Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Δημιουργήστε τον κάδο S3 credit-card, που κρατάει το τραπέζι credit_card.
  3. Να επιτρέπεται η πρόσβαση στον κάδο S3 για τον ρόλο υπηρεσίας Lake Formation του κεντρικού λογαριασμού.
  4. Δημιουργήστε το πρόγραμμα ανίχνευσης AWS Glue creditCrawler-<ProducerAccountID>.
  5. Δημιουργήστε έναν ρόλο υπηρεσίας ανίχνευσης AWS Glue.
  6. Παραχωρήστε δικαιώματα για τη θέση του κάδου S3 credit-card-<ProducerAccountID>-<aws-region> στον ρόλο του ανιχνευτή AWS Glue.
  7. Δημιουργήστε έναν χρήστη IAM διαχειριστή παραγωγού.

Λογαριασμός καταναλωτή

Στον λογαριασμό καταναλωτή, ολοκληρώστε τα παρακάτω βήματα:

  1. Εκκινήστε τη στοίβα CloudFormation:
    Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Δημιουργήστε τον κάδο S3 <AWS Account ID>-<aws-region>-athena-logs.
  3. Δημιουργήστε την ομάδα εργασίας Athena consumer-workgroup.
  4. Δημιουργήστε τον χρήστη IAM ConsumerAdmin.

Προσθέστε μια βάση δεδομένων και εγγραφείτε σε αυτήν τον λογαριασμό καταναλωτή

Αφού εκτελέσετε τα πρότυπα, μπορείτε να περάσετε από το Οδηγός βήμα προς βήμα να προσθέσετε ένα προϊόν στον κατάλογο δεδομένων και να εγγραφεί ο καταναλωτής σε αυτό. Ο οδηγός ξεκινά με τη δημιουργία μιας βάσης δεδομένων όπου ο παραγωγός μπορεί να τοποθετήσει τα προϊόντα του και στη συνέχεια εξηγεί πώς ο καταναλωτής μπορεί να εγγραφεί σε αυτήν τη βάση δεδομένων και να έχει πρόσβαση στα δεδομένα. Όλα αυτά εκτελούνται κατά τη χρήση Ετικέτες LF, Ποιο είναι το Έλεγχος πρόσβασης βάσει ετικετών για τον σχηματισμό της λίμνης.

Καταχώρηση προϊόντος δεδομένων

Η ακόλουθη αρχιτεκτονική περιγράφει τα λεπτομερή βήματα του τρόπου με τον οποίο η ομάδα LoB καταναλωτικής τραπεζικής που ενεργεί ως παραγωγοί δεδομένων μπορεί να καταχωρίσει τα προϊόντα δεδομένων της στον κεντρικό λογαριασμό διακυβέρνησης δεδομένων (ενσωματωμένα προϊόντα δεδομένων στο πλέγμα δεδομένων του οργανισμού).

Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τα γενικά βήματα για την εγγραφή ενός προϊόντος δεδομένων είναι τα εξής:

  1. Δημιουργήστε μια βάση δεδομένων στόχου για το προϊόν δεδομένων στον λογαριασμό κεντρικής διακυβέρνησης. Για παράδειγμα, το πρότυπο CloudFormation από τον κεντρικό λογαριασμό δημιουργεί ήδη τη βάση δεδομένων προορισμού credit-card.
  2. Μοιραστείτε τη δημιουργημένη βάση δεδομένων προορισμού με την προέλευση στον λογαριασμό παραγωγού.
  3. Δημιουργήστε έναν σύνδεσμο πόρων της κοινόχρηστης βάσης δεδομένων στον λογαριασμό παραγωγού. Στο παρακάτω στιγμιότυπο οθόνης, βλέπουμε στην κονσόλα Lake Formation στον λογαριασμό παραγωγού ότι rl_credit-card είναι ο σύνδεσμος πόρων του credit-card βάση δεδομένων.
    Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  4. Συμπλήρωση πινάκων (με τα δεδομένα που επιμελούνται στον λογαριασμό παραγωγού) μέσα στη βάση δεδομένων συνδέσμων πόρων (rl_credit-card) χρησιμοποιώντας έναν ανιχνευτή AWS Glue στον λογαριασμό παραγωγού.
    Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Ο δημιουργημένος πίνακας εμφανίζεται αυτόματα στον λογαριασμό κεντρικής διακυβέρνησης. Το παρακάτω στιγμιότυπο οθόνης δείχνει ένα παράδειγμα του πίνακα στο Lake Formation στον κεντρικό λογαριασμό. Αυτό γίνεται αφού εκτελέσετε τα προηγούμενα βήματα για τη συμπλήρωση της βάσης δεδομένων συνδέσμων πόρων rl_credit-card στον λογαριασμό παραγωγού.

Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Συμπέρασμα

Στο μέρος 1 αυτής της σειράς, συζητήσαμε τους στόχους των οργανισμών χρηματοπιστωτικών υπηρεσιών να επιτύχουν μεγαλύτερη ευελιξία για τις ομάδες ανάλυσης και ML τους και να μειώσουν το χρόνο από τα δεδομένα έως τις πληροφορίες. Επικεντρωθήκαμε επίσης στην κατασκευή μιας αρχιτεκτονικής πλέγματος δεδομένων στο AWS, όπου έχουμε εισαγάγει εύχρηστες, επεκτάσιμες και οικονομικά αποδοτικές υπηρεσίες AWS όπως το AWS Glue, το DataBrew και το Lake Formation. Οι ομάδες παραγωγής δεδομένων μπορούν να χρησιμοποιήσουν αυτές τις υπηρεσίες για να δημιουργήσουν και να μοιραστούν επιμελημένα, υψηλής ποιότητας, διαλειτουργικά και ασφαλή προϊόντα δεδομένων που είναι έτοιμα για χρήση από διαφορετικούς καταναλωτές δεδομένων για αναλυτικούς σκοπούς.

In μέρος 2, εστιάζουμε σε ομάδες ανάλυσης και ML CoE που καταναλώνουν προϊόντα δεδομένων που κοινοποιούνται από το LoB καταναλωτικής τραπεζικής για να δημιουργήσουν ένα μοντέλο πρόβλεψης πιστωτικού κινδύνου χρησιμοποιώντας υπηρεσίες AWS όπως το Athena και το SageMaker.


Σχετικά με τους συγγραφείς

Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Καρίμ Χαμμούδα είναι Εξειδικευμένος Αρχιτέκτονας Λύσεων για το Analytics στο AWS με πάθος για την ενοποίηση δεδομένων, την ανάλυση δεδομένων και το BI. Συνεργάζεται με πελάτες της AWS για να σχεδιάσει και να δημιουργήσει λύσεις ανάλυσης που συμβάλλουν στην ανάπτυξη της επιχείρησής τους. Στον ελεύθερο χρόνο του, του αρέσει να παρακολουθεί τηλεοπτικά ντοκιμαντέρ και να παίζει βιντεοπαιχνίδια με τον γιο του.

Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Χασάν Πουνουάλα είναι Ανώτερος Αρχιτέκτονας Λύσεων Specialist AI/ML στην AWS, ο Hasan βοηθά τους πελάτες να σχεδιάσουν και να αναπτύξουν εφαρμογές μηχανικής εκμάθησης στην παραγωγή στο AWS. Έχει πάνω από 12 χρόνια εργασιακής εμπειρίας ως επιστήμονας δεδομένων, επαγγελματίας μηχανικής μάθησης και προγραμματιστής λογισμικού. Στον ελεύθερο χρόνο του, ο Χασάν λατρεύει να εξερευνά τη φύση και να περνά χρόνο με φίλους και οικογένεια.

Δημιουργήστε και εκπαιδεύστε μοντέλα ML χρησιμοποιώντας μια αρχιτεκτονική πλέγματος δεδομένων στο AWS: Μέρος 1 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Benoit de Patoul είναι AI/ML Specialist Solutions Architect στο AWS. Βοηθά τους πελάτες παρέχοντας καθοδήγηση και τεχνική βοήθεια για τη δημιουργία λύσεων που σχετίζονται με το AI/ML χρησιμοποιώντας το AWS. Στον ελεύθερο χρόνο του, του αρέσει να παίζει πιάνο και να περνά χρόνο με φίλους.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS