Πώς η Sophos εκπαιδεύει έναν ισχυρό, ελαφρύ ανιχνευτή κακόβουλου λογισμικού PDF σε εξαιρετική κλίμακα με το Amazon SageMaker

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Αυτή η ανάρτηση συνυπογράφει η Salma Taoufiq και η Harini Kannan από τη Sophos.

Ως ηγέτης στην κυβερνοασφάλεια επόμενης γενιάς, Sophos προσπαθεί να προστατεύσει περισσότερους από 500,000 οργανισμούς και εκατομμύρια πελάτες σε περισσότερες από 150 χώρες από τις εξελισσόμενες απειλές. Με την υποστήριξη της νοημοσύνης απειλών, της μηχανικής μάθησης (ML) και της τεχνητής νοημοσύνης από το Sophos X-Ops, η Sophos προσφέρει ένα ευρύ και ποικίλο χαρτοφυλάκιο προηγμένων προϊόντων και υπηρεσιών για την ασφάλεια και την προστασία των χρηστών, των δικτύων και των τελικών σημείων έναντι phishing, ransomware, κακόβουλου λογισμικού και το ευρύ φάσμα των κυβερνοεπιθέσεων εκεί έξω.

Η Ομάδα Τεχνητής Νοημοσύνης (AI) Sophos (SophosAI) επιβλέπει την ανάπτυξη και τη συντήρηση της σημαντικής τεχνολογίας ασφάλειας ML της Sophos. Η ασφάλεια είναι ένα πρόβλημα μεγάλων δεδομένων. Για να αποφύγουν τον εντοπισμό, οι εγκληματίες του κυβερνοχώρου κατασκευάζουν συνεχώς νέες επιθέσεις. Αυτό μεταφράζεται σε κολοσσιαία σύνολα δεδομένων απειλών με τα οποία πρέπει να συνεργαστεί η ομάδα για την καλύτερη προστασία των πελατών. Ένα αξιοσημείωτο παράδειγμα είναι η ανίχνευση και η εξάλειψη αρχείων που ήταν επιμελημένα με κακόβουλο λογισμικό, όπου τα σύνολα δεδομένων είναι σε terabyte.

Σε αυτήν την ανάρτηση, εστιάζουμε στο σύστημα ανίχνευσης κακόβουλου λογισμικού της Sophos ειδικά για τη μορφή αρχείου PDF. Δείχνουμε πώς χρησιμοποιεί το SophosAI Amazon Sage Maker κατανεμημένη εκπαίδευση με terabytes δεδομένων για την εκπαίδευση ενός ισχυρού ελαφρού μοντέλου XGBoost (Extreme Gradient Boosting). Αυτό επιτρέπει στην ομάδα τους να επαναλαμβάνει μεγάλα δεδομένα προπόνησης πιο γρήγορα με αυτόματο συντονισμό υπερπαραμέτρων και χωρίς να διαχειρίζεται την υποκείμενη προπονητική υποδομή.

Η λύση αυτή τη στιγμή έχει ενσωματωθεί απρόσκοπτα στον αγωγό εκπαίδευσης παραγωγής και το μοντέλο έχει αναπτυχθεί σε εκατομμύρια τερματικά σημεία χρηστών μέσω του Υπηρεσία τερματικού σημείου Sophos.

Χρησιμοποιήστε το πλαίσιο υπόθεσης

Είτε θέλετε να μοιραστείτε ένα σημαντικό συμβόλαιο είτε να διατηρήσετε το φανταχτερό σχέδιο του βιογραφικού σας, η μορφή PDF είναι η πιο κοινή επιλογή. Η ευρεία χρήση του και η γενική αντίληψη ότι τέτοια έγγραφα είναι αεροστεγή και στατικά έχουν νανουρίσει τους χρήστες σε μια ψευδή αίσθηση ασφάλειας. Ως εκ τούτου, το PDF έχει γίνει ένας φορέας μόλυνσης επιλογής στο οπλοστάσιο των επιτιθέμενων. Οι κακόβουλες ενέργειες που χρησιμοποιούν αρχεία PDF επιτυγχάνονται συχνότερα μέσω της ενσωμάτωσης ενός ωφέλιμου φορτίου JavaScript που εκτελείται από το πρόγραμμα ανάγνωσης PDF για τη λήψη ενός ιού από ένα URI, την υπονόμευση του υπολογιστή του χρήστη ή την κλοπή ευαίσθητων πληροφοριών.

Το Sophos εντοπίζει κακόβουλα αρχεία PDF σε διάφορα σημεία μιας επίθεσης χρησιμοποιώντας ένα σύνολο ντετερμινιστικών μοντέλων και μοντέλων ML. Μια τέτοια προσέγγιση απεικονίζεται στο παρακάτω διάγραμμα, όπου το κακόβουλο αρχείο PDF παραδίδεται μέσω email. Μόλις γίνει μια προσπάθεια λήψης, ενεργοποιεί το κακόβουλο εκτελέσιμο σενάριο για να συνδεθεί στον διακομιστή εντολών και ελέγχου του εισβολέα. Ο ανιχνευτής PDF της SophosAI μπλοκάρει την προσπάθεια λήψης αφού εντοπίσει ότι είναι κακόβουλο.

Άλλοι τρόποι περιλαμβάνουν τον αποκλεισμό των αρχείων PDF στο τελικό σημείο, την αποστολή των κακόβουλων αρχείων σε ένα sandbox (όπου βαθμολογείται χρησιμοποιώντας πολλά μοντέλα), την υποβολή του κακόβουλου αρχείου σε μια υποδομή βαθμολόγησης και τη δημιουργία αναφοράς ασφαλείας κ.λπ.

Κινητοποίηση

Για να δημιουργήσει έναν δενδροειδή ανιχνευτή που μπορεί να καταδικάσει κακόβουλα αρχεία PDF με υψηλή σιγουριά, επιτρέποντας παράλληλα χαμηλή υπολογιστική κατανάλωση ισχύος στο τελικό σημείο και γρήγορες αποκρίσεις συμπερασμάτων, η ομάδα της SophosAI βρήκε τον αλγόριθμο XGBoost ως τον τέλειο υποψήφιο για την εργασία. Τέτοιοι ερευνητικοί δρόμοι είναι σημαντικοί για τη Sophos για δύο λόγους. Η ανάπτυξη ισχυρών αλλά μικρών μοντέλων σε επίπεδο τελικών σημείων πελατών έχει μεγάλο αντίκτυπο στις κριτικές προϊόντων της εταιρείας από τους αναλυτές. Επίσης, και το πιο σημαντικό, παρέχει μια καλύτερη εμπειρία χρήστη συνολικά.

Τεχνική πρόκληση

Επειδή ο στόχος ήταν να έχουμε ένα μοντέλο με μικρότερο αποτύπωμα μνήμης από τους υπάρχοντες ανιχνευτές κακόβουλου λογισμικού PDF (τόσο στο δίσκο όσο και στη μνήμη), η SophosAI μετέτρεψε τον XGBoost, έναν αλγόριθμο ταξινόμησης με αποδεδειγμένο ρεκόρ παραγωγής δραστικά μικρότερων μοντέλων από τα νευρωνικά δίκτυα, επιτυγχάνοντας παράλληλα εντυπωσιακά απόδοση σε δεδομένα πίνακα. Πριν ξεκινήσετε τη μοντελοποίηση των πειραμάτων XGBoost, ένα σημαντικό στοιχείο ήταν το τεράστιο μέγεθος του συνόλου δεδομένων. Πράγματι, το βασικό σύνολο δεδομένων αρχείων PDF της Sophos είναι σε terabyte.

Ως εκ τούτου, η κύρια πρόκληση ήταν η εκπαίδευση του μοντέλου με ένα μεγάλο σύνολο δεδομένων χωρίς να χρειάζεται να γίνει downsamp. Επειδή είναι ζωτικής σημασίας για τον ανιχνευτή να μάθει να εντοπίζει τυχόν επιθέσεις που βασίζονται σε PDF —ακόμα και εντελώς πρωτότυπες για να υπερασπιστεί καλύτερα τους πελάτες της Sophos— είναι εξαιρετικά σημαντικό να χρησιμοποιεί όλα τα διαθέσιμα διαφορετικά σύνολα δεδομένων.

Σε αντίθεση με τα νευρωνικά δίκτυα, όπου μπορείτε να εκπαιδεύεστε σε παρτίδες, για το XGBoost, χρειαζόμαστε ολόκληρο το σύνολο δεδομένων εκπαίδευσης στη μνήμη. Το μεγαλύτερο σύνολο δεδομένων εκπαίδευσης για αυτό το έργο είναι πάνω από 1 TB και δεν υπάρχει τρόπος εκπαίδευσης σε τέτοια κλίμακα χωρίς τη χρήση των μεθοδολογιών ενός κατανεμημένου πλαισίου εκπαίδευσης.

Επισκόπηση λύσεων

Το SageMaker είναι μια πλήρως διαχειριζόμενη υπηρεσία ML που παρέχει διάφορα εργαλεία για τη δημιουργία, την εκπαίδευση, τη βελτιστοποίηση και την ανάπτυξη μοντέλων ML. ο SageMaker ενσωματωμένες βιβλιοθήκες αλγορίθμων αποτελείται από 21 δημοφιλείς αλγόριθμους ML, συμπεριλαμβανομένου του XGBoost. (Για περισσότερες πληροφορίες, βλ Απλοποιήστε τη μηχανική εκμάθηση με το XGBoost και το Amazon SageMaker.) Με τον ενσωματωμένο αλγόριθμο XGBoost, μπορείτε να επωφεληθείτε από τον ανοιχτό κώδικα SageMaker XGBoost Container καθορίζοντας μια έκδοση πλαισίου μεγαλύτερη από 1.0-1, η οποία έχει βελτιωμένη ευελιξία, επεκτασιμότητα, επεκτασιμότητα και Εκπαίδευση Managed Spot και υποστηρίζει μορφές εισόδου όπως το Parquet, που είναι η μορφή που χρησιμοποιείται για το σύνολο δεδομένων PDF.

Ο κύριος λόγος που η SophosAI επέλεξε το SageMaker είναι η δυνατότητα να επωφεληθεί από την πλήρως διαχειριζόμενη κατανεμημένη εκπαίδευση σε στιγμιότυπα CPU πολλαπλών κόμβων, προσδιορίζοντας απλώς περισσότερες από μία παρουσίες. Το SageMaker διαχωρίζει αυτόματα τα δεδομένα σε κόμβους, συγκεντρώνει τα αποτελέσματα σε ομοτίμους κόμβους και δημιουργεί ένα ενιαίο μοντέλο. Οι περιπτώσεις μπορεί να είναι Spot Instances, μειώνοντας έτσι σημαντικά το κόστος εκπαίδευσης. Με το ενσωματωμένος αλγόριθμος για XGBoost, μπορείτε να το κάνετε αυτό χωρίς πρόσθετο προσαρμοσμένο σενάριο. Οι διανεμημένες εκδόσεις του XGBoost υπάρχουν επίσης ως ανοιχτού κώδικα, όπως π.χ XGBoost-Ray και XGBoost4J-Spark, αλλά η χρήση τους απαιτεί δημιουργία, ασφάλιση, συντονισμό και αυτοδιαχείριση κατανεμημένων υπολογιστικών συμπλεγμάτων, κάτι που αντιπροσωπεύει σημαντική προσπάθεια επιπλέον στην επιστημονική ανάπτυξη.

Επιπλέον, Αυτόματος συντονισμός μοντέλου SageMakerΤο , γνωστό και ως συντονισμός υπερπαραμέτρων, βρίσκει την καλύτερη έκδοση ενός μοντέλου εκτελώντας πολλές εργασίες εκπαίδευσης με εύρη υπερπαραμέτρων που καθορίζετε. Στη συνέχεια, επιλέγει τις τιμές υπερπαραμέτρων που καταλήγουν σε ένα μοντέλο που έχει την καλύτερη απόδοση, όπως μετράται από μια μέτρηση για τη δεδομένη εργασία ML.

Το παρακάτω διάγραμμα απεικονίζει την αρχιτεκτονική λύσεων.

Πώς η Sophos εκπαιδεύει έναν ισχυρό, ελαφρύ ανιχνευτή κακόβουλου λογισμικού PDF σε εξαιρετική κλίμακα με το Amazon SageMaker PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Αξίζει να σημειωθεί ότι, όταν η SophosAI ξεκίνησε τα πειράματα XGBoost πριν στραφεί στο SageMaker, έγιναν προσπάθειες να χρησιμοποιηθεί μεγάλη μνήμη Amazon Elastic Compute Cloud (Amazon EC2) περιπτώσεις (για παράδειγμα, r5a.24xlarge και x1.32xlarge) για να εκπαιδεύσετε το μοντέλο σε όσο το δυνατόν μεγαλύτερο δείγμα δεδομένων. Ωστόσο, αυτές οι προσπάθειες χρειάστηκαν περισσότερες από 10 ώρες κατά μέσο όρο και συνήθως απέτυχαν λόγω εξάντλησης της μνήμης.

Αντίθετα, χρησιμοποιώντας τον αλγόριθμο SageMaker XGBoost και έναν κατανεμημένο μηχανισμό εκπαίδευσης χωρίς προβλήματα, η SophosAI θα μπορούσε να εκπαιδεύσει ένα ενισχυτικό μοντέλο σε κλίμακα στο κολοσσιαίο σύνολο δεδομένων εκπαίδευσης PDF μέσα σε 20 λεπτά. Η ομάδα έπρεπε μόνο να αποθηκεύσει τα δεδομένα Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3) ως αρχεία Parquet παρόμοιου μεγέθους και επιλέξτε έναν τύπο παρουσίας EC2 και τον επιθυμητό αριθμό παρουσιών και το SageMaker διαχειρίστηκε την υποκείμενη υποδομή συμπλέγματος υπολογιστών και κατανεμημένη εκπαίδευση μεταξύ πολλών κόμβων του συμπλέγματος. Κάτω από την κουκούλα, το SageMaker διαχωρίζει τα δεδομένα σε κόμβους χρησιμοποιώντας το ShardedByS3Key για να κατανείμει τα αντικείμενα του αρχείου εξίσου μεταξύ κάθε παρουσίας και χρησιμοποιεί την υλοποίηση XGBoost του Πρωτόκολλο Rabit (αξιόπιστη διασύνδεση AllReduce και μετάδοσης) για εκκίνηση κατανεμημένης επεξεργασίας και επικοινωνία μεταξύ πρωτεύοντος και ομότιμου κόμβου. (Για περισσότερες λεπτομέρειες σχετικά με τη συγκέντρωση ιστογράμματος και τη μετάδοση μεταξύ των κόμβων, ανατρέξτε στο XGBoost: Ένα επεκτάσιμο σύστημα ενίσχυσης δέντρων.)

Πέρα από την εκπαίδευση ενός μοντέλου, με το SageMaker, Συντονισμός υπερπαραμέτρων XGBoost έγινε επίσης γρήγορη και εύκολη με τη δυνατότητα εκτέλεσης διαφορετικών πειραμάτων ταυτόχρονα για την τελειοποίηση του καλύτερου συνδυασμού υπερπαραμέτρων. Οι συντονίσιμες υπερπαράμετροι περιλαμβάνουν τόσο ειδικές για ενισχυτές όσο και για αντικειμενικές υπερπαράμετρους. Δύο στρατηγικές αναζήτησης προσφέρονται: τυχαία ή Bayesian. Η στρατηγική Bayesian αναζήτησης έχει αποδειχθεί πολύτιμη επειδή βοηθά στην εύρεση καλύτερων υπερπαραμέτρων από μια απλή τυχαία αναζήτηση, σε λιγότερες πειραματικές επαναλήψεις.

Πληροφορίες συνόλου δεδομένων

Η μοντελοποίηση ανίχνευσης κακόβουλου λογισμικού PDF της SophosAI βασίζεται σε μια ποικιλία χαρακτηριστικών, όπως ιστογράμματα n-gram και χαρακτηριστικά εντροπίας byte (Για περισσότερες πληροφορίες, ανατρέξτε στο MEADE: Towards a Malicious Email Attachment Detection Engine). Τα μεταδεδομένα και οι δυνατότητες που εξάγονται από συλλεγμένα αρχεία PDF αποθηκεύονται σε μια κατανεμημένη αποθήκη δεδομένων. Στη συνέχεια, υπολογίζεται ένα σύνολο δεδομένων με περισσότερες από 3,500 λειτουργίες, χωρίζεται περαιτέρω με βάση το χρόνο σε σετ εκπαίδευσης και δοκιμών και αποθηκεύεται σε παρτίδες ως αρχεία Parquet στο Amazon S3 για να είναι εύκολα προσβάσιμα από το SageMaker για εργασίες εκπαίδευσης.

Ο παρακάτω πίνακας παρέχει πληροφορίες σχετικά με τα δεδομένα εκπαίδευσης και δοκιμών.

Σύνολο δεδομένων	Αριθμός δειγμάτων	Αριθμός αρχείων παρκέ	Συνολικό μέγεθος
Εκπαίδευση	70,391,634	5,500	~ 1010 GB
Δοκιμή	1,242,283	98	~ 18 GB

Τα μεγέθη δεδομένων έχουν υπολογιστεί σύμφωνα με τον τύπο:

Μέγεθος δεδομένων = N × (n_F + ν_L) × 4

Ο τύπος έχει τις ακόλουθες παραμέτρους:

N είναι ο αριθμός των δειγμάτων στο σύνολο δεδομένων
n_F είναι ο αριθμός των χαρακτηριστικών, με n_F = 3585
n_L είναι ο αριθμός των ετικετών βασικής αλήθειας, με n_L = 1
4 είναι ο αριθμός των byte που απαιτούνται για τον τύπο δεδομένων των χαρακτηριστικών: float32

Επιπλέον, τα ακόλουθα γραφήματα πίτας παρέχουν την κατανομή ετικετών τόσο των συνόλων εκπαίδευσης όσο και των συνόλων δοκιμών, προκαλώντας την ανισορροπία κατηγορίας που αντιμετωπίζει η εργασία ανίχνευσης κακόβουλου λογισμικού PDF.

Η κατανομή μετατοπίζεται από το σετ εκπαίδευσης στο σετ δοκιμής ενός μήνα. Εφαρμόζεται ένας χωρισμός βάσει χρόνου του συνόλου δεδομένων σε εκπαίδευση και δοκιμή προκειμένου να προσομοιωθεί το σενάριο ανάπτυξης της πραγματικής ζωής και να αποφευχθεί η προσωρινή κατασκοπεία. Αυτή η στρατηγική επέτρεψε επίσης στη SophosAI να αξιολογήσει τις πραγματικές δυνατότητες γενίκευσης του μοντέλου όταν, για παράδειγμα, αντιμετώπισε ολοκαίνουργιες επιθέσεις PDF που δεν είχαν δει στο παρελθόν.

Πειράματα και αποτελέσματα

Για να ξεκινήσει πειράματα, η ομάδα της SophosAI εκπαίδευσε ένα βασικό μοντέλο XGBoost με προεπιλεγμένες παραμέτρους. Στη συνέχεια άρχισαν να εκτελούν μικρορύθμιση υπερπαραμέτρων με το SageMaker χρησιμοποιώντας τη Bayesian στρατηγική, η οποία είναι τόσο απλή όσο ο καθορισμός του υπερπαραμέτρους που πρόκειται να συντονιστεί και το επιθυμητό εύρος τιμών, τη μέτρηση αξιολόγησης (ROC (Λειτουργικό Χαρακτηριστικό Δέκτη) AUC σε αυτήν την περίπτωση) και τα σύνολα εκπαίδευσης και επικύρωσης. Για τον ανιχνευτή κακόβουλου λογισμικού PDF, η SophosAI έδωσε προτεραιότητα στις υπερπαραμέτρους, συμπεριλαμβανομένου του αριθμού των κύκλων ενίσχυσης (num_round), το μέγιστο βάθος δέντρου (max_depth), το ποσοστό μάθησης (eta), και η αναλογία δειγματοληψίας στηλών κατά την κατασκευή δέντρων (colsample_bytree). Τελικά, ελήφθησαν οι καλύτερες υπερπαράμετροι και χρησιμοποιήθηκαν για την εκπαίδευση ενός μοντέλου στο πλήρες σύνολο δεδομένων και τελικά αξιολογήθηκαν στο σύνολο δοκιμών κράτησης.

Η ακόλουθη γραφική παράσταση δείχνει την αντικειμενική μέτρηση (ROC AUC) έναντι των 15 εργασιών εκπαίδευσης που εκτελούνται εντός της εργασίας συντονισμού. Οι καλύτερες υπερπαράμετροι είναι αυτές που αντιστοιχούν στην ένατη εργασία εκπαίδευσης.

Στην αρχή των πειραμάτων της SophosAI στο SageMaker, ένα ιδιαίτερα σημαντικό ερώτημα που έπρεπε να απαντηθεί ήταν: τι είδους περιπτώσεις και πόσες από αυτές χρειάζονται για την εκπαίδευση του XGBoost στα διαθέσιμα δεδομένα; Αυτό είναι ζωτικής σημασίας γιατί η χρήση λανθασμένου αριθμού ή τύπου παρουσίασης μπορεί να είναι χάσιμο χρόνου και χρημάτων. η εκπαίδευση είναι βέβαιο ότι θα αποτύχει λόγω εξάντλησης της μνήμης ή, εάν χρησιμοποιείτε πάρα πολλές πολύ μεγάλες παρουσίες, αυτό μπορεί να γίνει άσκοπα ακριβό.

Ο XGBoost είναι ένας αλγόριθμος με δέσμευση μνήμης (σε αντίθεση με τον υπολογιστικό αλγόριθμο). Έτσι, ένα παράδειγμα υπολογισμού γενικής χρήσης (για παράδειγμα, M5) είναι καλύτερη επιλογή από ένα παράδειγμα βελτιστοποιημένου υπολογισμού (για παράδειγμα, C4). Για να λάβετε μια τεκμηριωμένη απόφαση, υπάρχει μια απλή οδηγία του SageMaker για την επιλογή του αριθμού των περιπτώσεων που απαιτούνται για την εκτέλεση της εκπαίδευσης στο πλήρες σύνολο δεδομένων:

Συνολικό Μέγεθος Δεδομένων Εκπαίδευσης × Συντελεστής Ασφάλειας^(*) < Αριθμός παρουσιών × Συνολική μνήμη τύπου παρουσίας

Σε αυτήν την περίπτωση: Συνολικό μέγεθος δεδομένων εκπαίδευσης × Συντελεστής ασφάλειας (12) = 12120 GB

Ο παρακάτω πίνακας συνοψίζει τις απαιτήσεις όταν ο επιλεγμένος τύπος εμφάνισης είναι ml.m5.24xlarge.

Μέγεθος προπόνησης × Συντελεστής ασφάλειας (12)	Μνήμη Στιγμιότυπου ml.m5.24xlarge	Απαιτείται ελάχιστος αριθμός περιπτώσεων για την εκπαίδευση
12120 GB	384 GB	32

^*Λόγω της φύσης της κατανεμημένης εκπαίδευσης XGBoost, η οποία απαιτεί τη φόρτωση ολόκληρου του συνόλου των δεδομένων εκπαίδευσης σε ένα αντικείμενο DMatrix πριν από την εκπαίδευση και την πρόσθετη ελεύθερη μνήμη, συνιστάται συντελεστής ασφαλείας 10–12.

Για να ρίξουμε μια πιο προσεκτική ματιά στη χρήση της μνήμης για μια πλήρη εκπαίδευση του SageMaker του XGBoost στο παρεχόμενο σύνολο δεδομένων, παρέχουμε το αντίστοιχο γράφημα που λαμβάνεται από την εκπαίδευση amazoncloudwatch παρακολούθηση. Για αυτήν την εργασία εκπαίδευσης, χρησιμοποιήθηκαν 40 ml.m5.24x μεγάλες περιπτώσεις και η μέγιστη χρήση μνήμης έφτασε περίπου το 62%.

Το κόστος μηχανικής που εξοικονομείται με την ενσωμάτωση μιας διαχειριζόμενης υπηρεσίας ML όπως το SageMaker στη γραμμή δεδομένων είναι περίπου 50%. Η επιλογή χρήσης Spot Instances για εργασίες εκπαίδευσης και συντονισμού υπερπαραμέτρων μείωσε το κόστος κατά ένα επιπλέον 63%.

Συμπέρασμα

Με το SageMaker, η ομάδα της SophosAI θα μπορούσε να επιλύσει με επιτυχία ένα περίπλοκο έργο υψηλής προτεραιότητας δημιουργώντας ένα ελαφρύ μοντέλο ανίχνευσης κακόβουλου λογισμικού PDF XGBoost που είναι πολύ μικρότερο στο δίσκο (έως και 25 φορές μικρότερο) και στη μνήμη (έως 5 φορές μικρότερο) από το ανιχνευτής προκάτοχος. Είναι ένας μικρός αλλά ισχυρός ανιχνευτής κακόβουλου λογισμικού με ~0.99 AUC και πραγματικό θετικό ποσοστό 0.99 και ψευδώς θετικό ποσοστό . Αυτό το μοντέλο μπορεί να επανεκπαιδευτεί γρήγορα και η απόδοσή του μπορεί εύκολα να παρακολουθηθεί με την πάροδο του χρόνου, επειδή χρειάζονται λιγότερο από 20 λεπτά για να το εκπαιδεύσετε σε περισσότερα από 1 TB δεδομένων.

Μπορείτε να αξιοποιήσετε τον ενσωματωμένο αλγόριθμο SageMaker XGBoost για την κατασκευή μοντέλων με τα δεδομένα σας σε πίνακα σε κλίμακα. Επιπλέον, μπορείτε επίσης να δοκιμάσετε τους νέους ενσωματωμένους αλγόριθμους Amazon SageMaker LightGBM, CatBoost, AutoGluon-Tabular και Tab Transformer όπως περιγράφεται σε αυτό blog.

Σχετικά με τους συγγραφείς

Σάλμα Ταουφίκ είναι Ανώτερος Επιστήμονας Δεδομένων στη Sophos, που εργάζεται στη διασταύρωση της μηχανικής μάθησης και της ασφάλειας στον κυβερνοχώρο. Με προπτυχιακό υπόβαθρο στην επιστήμη των υπολογιστών, αποφοίτησε από το Πανεπιστήμιο της Κεντρικής Ευρώπης με MSc. στα Μαθηματικά και τις Εφαρμογές τους. Όταν δεν αναπτύσσει έναν ανιχνευτή κακόβουλου λογισμικού, η Salma είναι άπληστος πεζοπόρος, ταξιδιώτης και καταναλωτής θρίλερ.

Χαρίνι Κανάν είναι Επιστήμονας Δεδομένων στο SophosAI. Ασχολείται με την επιστήμη δεδομένων ασφαλείας για ~4 χρόνια. Ήταν προηγουμένως η κύρια επιστήμονας δεδομένων στο Capsule8, το οποίο εξαγοράστηκε από τη Sophos. Έχει δώσει ομιλίες σε CAMLIS, BlackHat (ΗΠΑ), Open Data Science Conference (East), Data Science Salon, PyData (Βοστώνη) και Data Connectors. Οι τομείς έρευνάς της περιλαμβάνουν τον εντοπισμό επιθέσεων που βασίζονται σε υλικό χρησιμοποιώντας μετρητές απόδοσης, ανάλυση συμπεριφοράς χρηστών, ερμηνεύσιμη ML και ανίχνευση ανωμαλιών χωρίς επίβλεψη.

Χασάν Πουνουάλα είναι Senior AI/ML Specialist Solutions Architect στην AWS, με έδρα το Λονδίνο, Ηνωμένο Βασίλειο. Ο Hasan βοηθά τους πελάτες να σχεδιάσουν και να αναπτύξουν εφαρμογές μηχανικής εκμάθησης στην παραγωγή στο AWS. Έχει πάνω από 12 χρόνια εργασιακής εμπειρίας ως επιστήμονας δεδομένων, επαγγελματίας μηχανικής μάθησης και προγραμματιστής λογισμικού. Στον ελεύθερο χρόνο του, ο Χασάν λατρεύει να εξερευνά τη φύση και να περνά χρόνο με φίλους και οικογένεια.

Digant Patel είναι Επικεφαλής Υποστήριξης Επιχειρήσεων στην AWS. Συνεργάζεται με πελάτες για το σχεδιασμό, την ανάπτυξη και τη λειτουργία σε cloud σε κλίμακα. Οι τομείς ενδιαφέροντός του είναι οι πρακτικές MLOps και DevOps και πώς μπορεί να βοηθήσει τους πελάτες στο ταξίδι τους στο cloud. Εκτός δουλειάς, του αρέσει η φωτογραφία, το βόλεϊ και να περνά χρόνο με φίλους και οικογένεια.