Ανάπτυξη Speed ML με χρήση του SageMaker Feature Store και Apache Iceberg Offline Store Compaction

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Σήμερα, οι εταιρείες δημιουργούν καταστήματα χαρακτηριστικών για να παρέχουν ένα κεντρικό αποθετήριο για την κλιμάκωση της ανάπτυξης ML σε επιχειρηματικές μονάδες και ομάδες επιστήμης δεδομένων. Καθώς τα δεδομένα χαρακτηριστικών αυξάνονται σε μέγεθος και πολυπλοκότητα, οι επιστήμονες δεδομένων πρέπει να μπορούν να υποβάλλουν αποτελεσματικά ερωτήματα σε αυτές τις αποθήκες χαρακτηριστικών για να εξάγουν σύνολα δεδομένων για πειραματισμό, εκπαίδευση μοντέλων και βαθμολόγηση παρτίδας.

Κατάστημα χαρακτηριστικών Amazon SageMaker είναι μια ειδικά σχεδιασμένη λύση διαχείρισης δυνατοτήτων που βοηθά τους επιστήμονες δεδομένων και τους μηχανικούς ML με ασφάλεια να αποθηκεύουν, να ανακαλύπτουν και να μοιράζονται επιμελημένα δεδομένα που χρησιμοποιούνται σε ροές εργασίας εκπαίδευσης και πρόβλεψης. Το SageMaker Feature Store υποστηρίζει πλέον Παγόβουνο Apache ως μορφή πίνακα για την αποθήκευση χαρακτηριστικών. Αυτό επιταχύνει την ανάπτυξη μοντέλων επιτρέποντας ταχύτερη απόδοση ερωτημάτων κατά την εξαγωγή συνόλων δεδομένων εκπαίδευσης ML, εκμεταλλευόμενοι τη συμπίεση του πίνακα Iceberg. Ανάλογα με τη σχεδίαση των ομάδων χαρακτηριστικών σας και την κλίμακα τους, μπορείτε να δοκιμάσετε βελτιώσεις απόδοσης ερωτημάτων εκπαίδευσης 10x έως 100x χρησιμοποιώντας αυτήν τη νέα δυνατότητα.

Μέχρι το τέλος αυτής της ανάρτησης, θα γνωρίζετε πώς να δημιουργείτε ομάδες χαρακτηριστικών χρησιμοποιώντας τη μορφή Iceberg, να εκτελείτε τις διαδικασίες διαχείρισης πίνακα του Iceberg χρησιμοποιώντας Αμαζόν Αθηνάκαι προγραμματίστε αυτές τις εργασίες να εκτελούνται αυτόνομα. Εάν είστε χρήστης του Spark, θα μάθετε επίσης πώς να εκτελείτε τις ίδιες διαδικασίες χρησιμοποιώντας το Spark και να τις ενσωματώνετε στο δικό σας περιβάλλον Spark και αυτοματισμό.

SageMaker Feature Store και Apache Iceberg

Κατάστημα χαρακτηριστικών Amazon SageMaker είναι ένα κεντρικό κατάστημα για λειτουργίες και σχετικά μεταδεδομένα, που επιτρέπει την εύκολη ανακάλυψη και επαναχρησιμοποίηση των χαρακτηριστικών από ομάδες επιστημόνων δεδομένων που εργάζονται σε διαφορετικά έργα ή μοντέλα ML.

Το SageMaker Feature Store αποτελείται από μια ηλεκτρονική και μια λειτουργία εκτός σύνδεσης για τη διαχείριση λειτουργιών. Το ηλεκτρονικό κατάστημα χρησιμοποιείται για περιπτώσεις χρήσης συμπερασμάτων σε πραγματικό χρόνο χαμηλής καθυστέρησης. Το κατάστημα εκτός σύνδεσης χρησιμοποιείται κυρίως για προβλέψεις παρτίδων και εκπαίδευση μοντέλων. Το κατάστημα εκτός σύνδεσης είναι ένα κατάστημα μόνο με προσθήκες και μπορεί να χρησιμοποιηθεί για την αποθήκευση και πρόσβαση σε δεδομένα ιστορικού χαρακτηριστικών. Με το κατάστημα εκτός σύνδεσης, οι χρήστες μπορούν να αποθηκεύουν και να εξυπηρετούν λειτουργίες για εξερεύνηση και βαθμολόγηση παρτίδας και να εξάγουν σωστά σύνολα δεδομένων σε χρόνο για εκπαίδευση μοντέλων.

Τα δεδομένα καταστήματος εκτός σύνδεσης αποθηκεύονται σε έναν κάδο Amazon Simple Storage Service (Amazon S3) στον λογαριασμό σας AWS. Το SageMaker Feature Store δημιουργεί αυτόματα έναν Κατάλογο δεδομένων κόλλας AWS κατά τη δημιουργία της ομάδας δυνατοτήτων. Οι πελάτες μπορούν επίσης να έχουν πρόσβαση σε δεδομένα καταστήματος εκτός σύνδεσης χρησιμοποιώντας έναν χρόνο εκτέλεσης Spark και να εκτελούν επεξεργασία μεγάλων δεδομένων για ανάλυση χαρακτηριστικών ML και περιπτώσεις χρήσης μηχανικής λειτουργιών.

Οι μορφές πινάκων παρέχουν έναν τρόπο αφαίρεσης αρχείων δεδομένων ως πίνακα. Με τα χρόνια, πολλές μορφές πινάκων έχουν εμφανιστεί για να υποστηρίζουν περιπτώσεις συναλλαγών, διακυβέρνησης και χρήσης καταλόγου ACID. Παγόβουνο Apache είναι μια μορφή ανοιχτού πίνακα για πολύ μεγάλα αναλυτικά σύνολα δεδομένων. Διαχειρίζεται μεγάλες συλλογές αρχείων ως πίνακες και υποστηρίζει σύγχρονες λειτουργίες ανάλυσης δεδομένων όπως εισαγωγή, ενημέρωση, διαγραφή και ερωτήματα για ταξίδι στο χρόνο. Το Iceberg παρακολουθεί μεμονωμένα αρχεία δεδομένων σε έναν πίνακα αντί σε καταλόγους. Αυτό επιτρέπει στους συντάκτες να δημιουργούν αρχεία δεδομένων στη θέση τους (τα αρχεία δεν μετακινούνται ούτε αλλάζουν) και προσθέτουν αρχεία στον πίνακα μόνο σε μια ρητή δέσμευση. Η κατάσταση του πίνακα διατηρείται σε αρχεία μεταδεδομένων. Όλες οι αλλαγές στην κατάσταση του πίνακα δημιουργούν μια νέα έκδοση αρχείου μεταδεδομένων που αντικαθιστά ατομικά τα παλαιότερα μεταδεδομένα. Το αρχείο μεταδεδομένων πίνακα παρακολουθεί το σχήμα πίνακα, τη διαμόρφωση διαμερισμάτων και άλλες ιδιότητες.

Το Iceberg έχει ενσωματώσεις με υπηρεσίες AWS. Για παράδειγμα, μπορείτε να χρησιμοποιήσετε το Κόλλα AWS Κατάλογος δεδομένων ως το metastore για πίνακες Iceberg, και Αθήνα υποστηρίζει ερωτήματα ανάγνωσης, ταξιδιού στο χρόνο, εγγραφής και DDL για πίνακες Apache Iceberg που χρησιμοποιούν τη μορφή Apache Parquet για δεδομένα και τον κατάλογο AWS Glue για το metastore τους.

Με το SageMaker Feature Store, μπορείτε πλέον να δημιουργήσετε ομάδες χαρακτηριστικών με μορφή πίνακα Iceberg ως εναλλακτική στην προεπιλεγμένη τυπική μορφή Glue. Με αυτό, οι πελάτες μπορούν να αξιοποιήσουν τη νέα μορφή πίνακα για να χρησιμοποιήσουν τις δυνατότητες συμπίεσης αρχείων και περικοπής δεδομένων του Iceberg για να ανταποκριθούν στις απαιτήσεις τους περί χρήσης και βελτιστοποίησης. Το Iceberg επιτρέπει επίσης στους πελάτες να εκτελούν ερωτήματα διαγραφής, ταξιδιού στο χρόνο, συναλλαγές υψηλής ταυτόχρονης απόδοσης και ερωτήματα υψηλότερης απόδοσης.

Συνδυάζοντας το Iceberg ως μορφή πίνακα και λειτουργίες συντήρησης πίνακα, όπως η συμπίεση, οι πελάτες λαμβάνουν ταχύτερη απόδοση ερωτημάτων όταν εργάζονται με ομάδες χαρακτηριστικών εκτός σύνδεσης σε κλίμακα, επιτρέποντάς τους να δημιουργήσουν πιο γρήγορα σύνολα δεδομένων εκπαίδευσης ML.

Το παρακάτω διάγραμμα δείχνει τη δομή του καταστήματος εκτός σύνδεσης χρησιμοποιώντας το Iceberg ως μορφή πίνακα.

Στις επόμενες ενότητες, θα μάθετε πώς να δημιουργείτε ομάδες χαρακτηριστικών χρησιμοποιώντας τη μορφή Iceberg, να εκτελείτε τις διαδικασίες διαχείρισης πινάκων του Iceberg χρησιμοποιώντας το AWS Athena και να χρησιμοποιείτε τις υπηρεσίες AWS για να προγραμματίζετε αυτές τις εργασίες να εκτελούνται κατ' απαίτηση ή βάσει χρονοδιαγράμματος. Εάν είστε χρήστης του Spark, θα μάθετε επίσης πώς να εκτελείτε τις ίδιες διαδικασίες χρησιμοποιώντας το Spark.

Για οδηγίες βήμα προς βήμα, παρέχουμε επίσης α δείγμα σημειωματάριου, το οποίο μπορείτε να βρείτε στο GitHub. Σε αυτή την ανάρτηση, θα επισημάνουμε τα πιο σημαντικά σημεία.

Δημιουργία ομάδων χαρακτηριστικών χρησιμοποιώντας τη μορφή πίνακα Iceberg

Πρέπει πρώτα να επιλέξετε το Iceberg ως μορφή πίνακα κατά τη δημιουργία νέων ομάδων χαρακτηριστικών. Μια νέα προαιρετική παράμετρος TableFormat μπορεί να οριστεί είτε διαδραστικά χρησιμοποιώντας το Amazon SageMaker Studio είτε μέσω κώδικα χρησιμοποιώντας το API ή το SDK. Αυτή η παράμετρος δέχεται τις τιμές ICEBERG or GLUE (για την τρέχουσα μορφή AWS Glue). Το παρακάτω απόσπασμα κώδικα σάς δείχνει πώς να δημιουργήσετε μια ομάδα χαρακτηριστικών χρησιμοποιώντας τη μορφή Iceberg και FeatureGroup.create API του SageMaker SDK.

orders_feature_group_iceberg.create(
s3_uri=f"s3://{s3_bucket_name}/{prefix}",
record_identifier_name=record_identifier_feature_name,
event_time_feature_name=event_time_feature_name,
role_arn=role,
enable_online_store=True,
table_format=TableFormatEnum.ICEBERG
)

Ο πίνακας θα δημιουργηθεί και θα καταχωρηθεί αυτόματα στον Κατάλογο δεδομένων κόλλας AWS.

Τώρα που η orders_feature_group_iceberg δημιουργείται, μπορείτε να απορροφήσετε λειτουργίες χρησιμοποιώντας τη γραμμή απορρόφησης της επιλογής σας. Σε αυτό το παράδειγμα, λαμβάνουμε εγγραφές χρησιμοποιώντας το FeatureGroup.ingest() API, το οποίο απορροφά εγγραφές από ένα Pandas DataFrame. Μπορείτε επίσης να χρησιμοποιήσετε το FeatureGroup().put_record API για την απορρόφηση μεμονωμένων εγγραφών ή για το χειρισμό πηγών ροής. Οι χρήστες του Spark μπορούν επίσης να απορροφήσουν πλαίσια δεδομένων Spark χρησιμοποιώντας το δικό μας Spark Connector.

orders_fg = FeatureGroup(name=orders_feature_group_iceberg_name,
sagemaker_session=feature_store_session)
orders_fg.ingest(data_frame=order_data, wait=True)

Μπορείτε να επαληθεύσετε ότι οι εγγραφές έχουν απορροφηθεί με επιτυχία εκτελώντας ένα ερώτημα στο χώρο αποθήκευσης δυνατοτήτων εκτός σύνδεσης. Μπορείτε επίσης να πλοηγηθείτε στη θέση S3 και να δείτε τη νέα δομή φακέλου.

Εκτέλεση διαδικασιών διαχείρισης τραπεζιών Iceberg

Αμαζόν Αθηνά είναι μια μηχανή ερωτημάτων SQL χωρίς διακομιστή που υποστηρίζει εγγενώς διαδικασίες διαχείρισης Iceberg. Σε αυτήν την ενότητα, θα χρησιμοποιήσετε το Athena για να συμπυκνώσετε μη αυτόματα την ομάδα δυνατοτήτων εκτός σύνδεσης που δημιουργήσατε. Σημείωση θα χρειαστεί να χρησιμοποιήσετε την έκδοση 3 του κινητήρα Athena. Για αυτό, μπορείτε να δημιουργήσετε μια νέα ομάδα εργασίας ή να διαμορφώσετε μια υπάρχουσα ομάδα εργασίας και να επιλέξετε τη συνιστώμενη έκδοση κινητήρα Athena 3. Για περισσότερες πληροφορίες και οδηγίες για την αλλαγή της έκδοσης κινητήρα Athena, ανατρέξτε στο Αλλαγή εκδόσεων κινητήρα Athena.

Καθώς τα δεδομένα συσσωρεύονται σε έναν πίνακα Iceberg, τα ερωτήματα μπορεί σταδιακά να γίνουν λιγότερο αποτελεσματικά λόγω του αυξημένου χρόνου επεξεργασίας που απαιτείται για το άνοιγμα πρόσθετων αρχείων. Η συμπίεση βελτιστοποιεί τη δομική διάταξη του πίνακα χωρίς να αλλάζει το περιεχόμενο του πίνακα.

Για να πραγματοποιήσετε συμπύκνωση, χρησιμοποιείτε το OPTIMIZE table REWRITE DATA εντολή συντήρησης τραπεζιού συμπίεσης στην Αθηνά. Η ακόλουθη σύνταξη δείχνει πώς να βελτιστοποιήσετε τη διάταξη δεδομένων μιας ομάδας χαρακτηριστικών που είναι αποθηκευμένη χρησιμοποιώντας τη μορφή πίνακα Iceberg. ο sagemaker_featurestore αντιπροσωπεύει το όνομα της βάσης δεδομένων του SageMaker Feature Store και orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334 είναι το όνομα του πίνακα της ομάδας χαρακτηριστικών μας.

OPTIMIZE sagemaker_featurestore.orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334 REWRITE DATA USING BIN_PACK

Αφού εκτελέσετε την εντολή βελτιστοποίησης, χρησιμοποιείτε το VACUUM διαδικασία, η οποία εκτελεί τη λήξη του στιγμιότυπου και αφαιρεί τα ορφανά αρχεία. Αυτές οι ενέργειες μειώνουν το μέγεθος των μεταδεδομένων και καταργούν αρχεία που δεν βρίσκονται στην τρέχουσα κατάσταση του πίνακα και είναι επίσης παλαιότερα από την περίοδο διατήρησης που καθορίζεται για τον πίνακα.

VACUUM sagemaker_featurestore.orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334

Σημειώστε ότι οι ιδιότητες του πίνακα μπορούν να διαμορφωθούν με χρήση του Athena's ALTER TABLE. Για παράδειγμα πώς να το κάνετε αυτό, δείτε το τεκμηρίωση Αθηνά. Για το ΚΕΝΟ, vacuum_min_snapshots_to_keep και vacuum_max_snapshot_age_seconds μπορεί να χρησιμοποιηθεί για τη διαμόρφωση των παραμέτρων κλαδέματος στιγμιότυπου.

Ας ρίξουμε μια ματιά στον αντίκτυπο της απόδοσης της εκτέλεσης συμπίεσης σε ένα δείγμα πίνακα ομάδας χαρακτηριστικών. Για δοκιμαστικούς σκοπούς, χρησιμοποιήσαμε τις ίδιες εγγραφές χαρακτηριστικών παραγγελιών σε δύο ομάδες χαρακτηριστικών, orders-feature-group-iceberg-pre-comp-02-11-03-06-1669979003 και orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334, χρησιμοποιώντας μια παραλληλισμένη εργασία επεξεργασίας SageMaker με το Scikit-Learn, η οποία έχει ως αποτέλεσμα 49,908,135 αντικείμενα αποθηκευμένα στο Amazon S3 και συνολικό μέγεθος 106.5 GiB.

Εκτελούμε ένα ερώτημα για να επιλέξουμε το πιο πρόσφατο στιγμιότυπο χωρίς διπλότυπα και χωρίς διαγραμμένες εγγραφές στην ομάδα χαρακτηριστικών orders-feature-group-iceberg-pre-comp-02-11-03-06-1669979003. Πριν από τη συμπύκνωση, το ερώτημα διήρκεσε 1 ώρα και 27 λεπτά.

Στη συνέχεια εκτελούμε συμπύκνωση orders-feature-group-iceberg-post-comp-03-14-05-17-1670076334 χρησιμοποιώντας το ερώτημα Athena OPTIMIZE, το οποίο συμπύκνωσε τον πίνακα της ομάδας χαρακτηριστικών σε 109,851 αντικείμενα στο Amazon S3 και συνολικό μέγεθος 2.5 GiB. Εάν στη συνέχεια εκτελέσουμε το ίδιο ερώτημα μετά τη συμπίεση, ο χρόνος εκτέλεσης μειώθηκε σε 1 λεπτό και 13 δευτερόλεπτα.

Με τη συμπίεση αρχείων Iceberg, ο χρόνος εκτέλεσης του ερωτήματος βελτιώθηκε σημαντικά. Για το ίδιο ερώτημα, ο χρόνος εκτέλεσης μειώθηκε από 1 ώρα 27 λεπτά σε 1 λεπτό και 13 δευτερόλεπτα, που είναι 71 φορές ταχύτερος.

Προγραμματισμός συμπίεσης Iceberg με υπηρεσίες AWS

Σε αυτήν την ενότητα, θα μάθετε πώς να αυτοματοποιείτε τις διαδικασίες διαχείρισης πίνακα για να συμπυκνώσετε το χώρο αποθήκευσης δυνατοτήτων εκτός σύνδεσης. Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική για τη δημιουργία ομάδων χαρακτηριστικών σε μορφή πίνακα Iceberg και μια πλήρως αυτοματοποιημένη λύση διαχείρισης πίνακα, η οποία περιλαμβάνει λειτουργίες συμπίεσης και καθαρισμού αρχείων.

Σε υψηλό επίπεδο, δημιουργείτε μια ομάδα δυνατοτήτων χρησιμοποιώντας τη μορφή πίνακα Iceberg και απολαμβάνετε εγγραφές στο ηλεκτρονικό κατάστημα δυνατοτήτων. Οι τιμές λειτουργιών αναπαράγονται αυτόματα από το ηλεκτρονικό κατάστημα στο ιστορικό κατάστημα εκτός σύνδεσης. Το Athena χρησιμοποιείται για την εκτέλεση των διαδικασιών διαχείρισης Iceberg. Για να προγραμματίσετε τις διαδικασίες, ρυθμίζετε ένα Κόλλα AWS εργασία χρησιμοποιώντας ένα σενάριο κελύφους Python και δημιουργήστε ένα πρόγραμμα εργασιών AWS Glue.

Ρύθμιση AWS Glue Job

Χρησιμοποιείτε μια εργασία κόλλας AWS για να εκτελέσετε τις λειτουργίες συντήρησης του Iceberg τραπέζι σε ένα χρονοδιάγραμμα. Αρχικά, πρέπει να δημιουργήσετε έναν ρόλο IAM για το AWS Glue για να έχει δικαιώματα πρόσβασης στο Amazon Athena, στο Amazon S3 και στο CloudWatch.

Στη συνέχεια, πρέπει να δημιουργήσετε ένα σενάριο Python για να εκτελέσετε τις διαδικασίες Iceberg. Μπορείτε να βρείτε το δείγμα σεναρίου στο GitHub. Το σενάριο θα εκτελέσει το ερώτημα OPTIMIZE χρησιμοποιώντας το boto3.

optimize_sql = f"optimize {database}.{table} rewrite data using bin_pack"

Το σενάριο έχει παραμετροποιηθεί χρησιμοποιώντας την κόλλα AWS getResolvedOptions(args, options) βοηθητική συνάρτηση που σας δίνει πρόσβαση στα ορίσματα που μεταβιβάζονται στο σενάριό σας όταν εκτελείτε μια εργασία. Σε αυτό το παράδειγμα, η περιοχή AWS, η βάση δεδομένων και ο πίνακας Iceberg για την ομάδα χαρακτηριστικών σας, η ομάδα εργασίας Athena και ο φάκελος αποτελεσμάτων θέσης εξόδου Athena μπορούν να μεταβιβαστούν ως παράμετροι στην εργασία, καθιστώντας αυτό το σενάριο επαναχρησιμοποιήσιμο στο περιβάλλον σας.

Τέλος, δημιουργείτε την πραγματική εργασία AWS Glue για να εκτελέσετε το σενάριο ως κέλυφος στο AWS Glue.

Μεταβείτε στην κονσόλα AWS Glue.
Επιλέξτε Θέσεις εργασίας καρτέλα κάτω από το AWS Glue Studio.
Αγορά Πρόγραμμα επεξεργασίας σεναρίων Python Shell.
Επιλέξτε Μεταφορτώστε και επεξεργαστείτε ένα υπάρχον σενάριο. Κλίκ Δημιουργία.
Η Λεπτομέρειες εργασίας Το κουμπί σάς επιτρέπει να διαμορφώσετε την εργασία κόλλας AWS. Πρέπει να επιλέξετε τον ρόλο IAM που δημιουργήσατε νωρίτερα. Επιλέγω Python 3.9 ή την πιο πρόσφατη διαθέσιμη έκδοση Python.
Στην ίδια καρτέλα, μπορείτε επίσης να ορίσετε μια σειρά από άλλες επιλογές διαμόρφωσης, όπως π.χ Αριθμός επαναλήψεων or Λήξη χρόνου εργασίας. σε Προηγμένες ιδιότητες, μπορείτε να προσθέσετε παραμέτρους εργασίας για να εκτελέσετε το σενάριο, όπως φαίνεται στο παράδειγμα στιγμιότυπο οθόνης παρακάτω.
Πατήστε Αποθήκευση.

Στο Δρομολόγια καρτέλα, μπορείτε να ορίσετε το χρονοδιάγραμμα εκτέλεσης των διαδικασιών συντήρησης του καταστήματος δυνατοτήτων. Για παράδειγμα, το ακόλουθο στιγμιότυπο οθόνης σάς δείχνει πώς να εκτελείτε την εργασία σε ένα πρόγραμμα κάθε 6 ώρες.

Μπορείτε να παρακολουθείτε τις εκτελέσεις εργασιών για να κατανοήσετε τις μετρήσεις χρόνου εκτέλεσης, όπως η κατάσταση ολοκλήρωσης, η διάρκεια και ο χρόνος έναρξης. Μπορείτε επίσης να ελέγξετε τα αρχεία καταγραφής CloudWatch για την εργασία κόλλας AWS για να ελέγξετε ότι οι διαδικασίες εκτελούνται με επιτυχία.

Εκτέλεση εργασιών διαχείρισης τραπεζιού Iceberg με το Spark

Οι πελάτες μπορούν επίσης να χρησιμοποιήσουν το Spark για να διαχειριστούν τις εργασίες συμπίεσης και τις μεθόδους συντήρησης. Για περισσότερες λεπτομέρειες σχετικά με τις διαδικασίες Spark, βλ Τεκμηρίωση Spark.

Πρώτα πρέπει να διαμορφώσετε μερικές από τις κοινές ιδιότητες.

%%configure -f
{
  "conf": {
    "spark.sql.catalog.smfs": "org.apache.iceberg.spark.SparkCatalog",
    "spark.sql.catalog.smfs.catalog-impl": "org.apache.iceberg.aws.glue.GlueCatalog",
    "spark.sql.catalog.smfs.warehouse": "",
    "spark.sql.extensions":"org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions",
    "spark.sql.catalog.smfs.glue.skip-name-validation": "true"
  }
}

Ο παρακάτω κώδικας μπορεί να χρησιμοποιηθεί για τη βελτιστοποίηση των ομάδων χαρακτηριστικών μέσω του Spark.

spark.sql(f"""CALL smfs.system.rewrite_data_files(table => '{DATABASE}.`{ICEBERG_TABLE}`')""")

Στη συνέχεια, μπορείτε να εκτελέσετε τις επόμενες δύο διαδικασίες συντήρησης πίνακα για να αφαιρέσετε παλαιότερα στιγμιότυπα και ορφανά αρχεία που δεν χρειάζονται πλέον.

spark.sql(f"""CALL smfs.system.expire_snapshots(table => '{DATABASE}.`{ICEBERG_TABLE}`', older_than => TIMESTAMP '{one_day_ago}', retain_last => 1)""")
spark.sql(f"""CALL smfs.system.remove_orphan_files(table => '{DATABASE}.`{ICEBERG_TABLE}`')""")

Στη συνέχεια, μπορείτε να ενσωματώσετε τις παραπάνω εντολές Spark στο περιβάλλον Spark σας. Για παράδειγμα, μπορείτε να δημιουργήσετε μια εργασία που εκτελεί τη βελτιστοποίηση παραπάνω σε ένα επιθυμητό χρονοδιάγραμμα ή σε μια διοχέτευση μετά την απορρόφηση.

Για να εξερευνήσετε το πλήρες παράδειγμα κώδικα και να το δοκιμάσετε στον δικό σας λογαριασμό, ανατρέξτε στο GitHub repo.

Συμπέρασμα

Το SageMaker Feature Store παρέχει μια ειδικά σχεδιασμένη λύση διαχείρισης δυνατοτήτων για να βοηθήσει τους οργανισμούς να κλιμακώσουν την ανάπτυξη ML σε ομάδες επιστήμης δεδομένων. Σε αυτήν την ανάρτηση, εξηγήσαμε πώς μπορείτε να αξιοποιήσετε το Apache Iceberg ως μορφή πίνακα και λειτουργίες συντήρησης πίνακα, όπως η συμπίεση, για να επωφεληθείτε από σημαντικά ταχύτερα ερωτήματα όταν εργάζεστε με ομάδες χαρακτηριστικών εκτός σύνδεσης σε κλίμακα και, ως εκ τούτου, να δημιουργήσετε γρηγορότερα σύνολα δεδομένων εκπαίδευσης. Δοκιμάστε το και πείτε μας τη γνώμη σας στα σχόλια.

Σχετικά με τους συγγραφείς

Arnaud Lauer είναι Senior Partner Solutions Architect στην ομάδα του Δημόσιου Τομέα στην AWS. Δίνει τη δυνατότητα στους συνεργάτες και τους πελάτες να κατανοήσουν πώς να χρησιμοποιούν καλύτερα τις τεχνολογίες AWS για να μετατρέψουν τις επιχειρηματικές ανάγκες σε λύσεις. Φέρνει περισσότερα από 17 χρόνια εμπειρίας στην υλοποίηση και την αρχιτεκτονική έργων ψηφιακού μετασχηματισμού σε μια σειρά βιομηχανιών, συμπεριλαμβανομένων του δημόσιου τομέα, της ενέργειας και των καταναλωτικών αγαθών. Ο Arnaud κατέχει 12 πιστοποιήσεις AWS, συμπεριλαμβανομένης της Πιστοποίησης Ειδικότητας ML.

Ioan Catana είναι Αρχιτέκτονας Ειδικών Λύσεων Τεχνητής Νοημοσύνης και Μηχανικής Μάθησης στην AWS. Βοηθά τους πελάτες να αναπτύξουν και να κλιμακώσουν τις λύσεις ML τους στο AWS Cloud. Ο Ioan έχει πάνω από 20 χρόνια εμπειρίας κυρίως στον σχεδιασμό αρχιτεκτονικής λογισμικού και στο cloud engineering.

Μαρκ Ρόι είναι ένας κύριος αρχιτέκτονας μηχανικής μάθησης για AWS, βοηθώντας τους πελάτες να σχεδιάσουν και να κατασκευάσουν λύσεις AI / ML. Το έργο του Mark καλύπτει ένα ευρύ φάσμα περιπτώσεων χρήσης ML, με πρωταρχικό ενδιαφέρον για την όραση του υπολογιστή, τη βαθιά μάθηση και την κλιμάκωση του ML σε ολόκληρη την επιχείρηση. Έχει βοηθήσει εταιρείες σε πολλούς κλάδους, συμπεριλαμβανομένων των ασφαλίσεων, των χρηματοοικονομικών υπηρεσιών, των μέσων ενημέρωσης και της ψυχαγωγίας, της υγειονομικής περίθαλψης, των υπηρεσιών κοινής ωφέλειας και της κατασκευής. Ο Mark κατέχει έξι πιστοποιήσεις AWS, συμπεριλαμβανομένης της πιστοποίησης ML Speciality. Πριν από την ένταξή του στην AWS, ο Mark ήταν αρχιτέκτονας, προγραμματιστής και ηγέτης τεχνολογίας για πάνω από 25 χρόνια, συμπεριλαμβανομένων 19 ετών σε χρηματοοικονομικές υπηρεσίες.

Μπράντον Τσάθαμ είναι μηχανικός λογισμικού με την ομάδα του SageMaker Feature Store. Είναι πολύ παθιασμένος με την κατασκευή κομψών συστημάτων που φέρνουν μεγάλα δεδομένα και μηχανική μάθηση στα χέρια των ανθρώπων.