The Beautiful Lies of Machine Learning στην Ασφάλεια PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Τα όμορφα ψέματα της μηχανικής μάθησης στην ασφάλεια

Σε αντίθεση με ό,τι μπορεί να έχετε διαβάσει, μάθηση μηχανής Το (ML) δεν είναι μαγική σκόνη pixie. Γενικά, η ML είναι καλή για προβλήματα στενού εύρους με τεράστια διαθέσιμα σύνολα δεδομένων και όπου τα μοτίβα ενδιαφέροντος είναι εξαιρετικά επαναλήψιμα ή προβλέψιμα. Τα περισσότερα προβλήματα ασφαλείας ούτε απαιτούν ούτε ωφελούνται από το ML. Πολλοί ειδικοί, συμπεριλαμβανομένων των ανθρώπων στο Google, προτείνουμε ότι όταν επιλύετε ένα σύνθετο πρόβλημα θα πρέπει εξαντλήσει όλα τα άλλα προσεγγίζει πριν δοκιμάσει το ML.

Η ML είναι μια ευρεία συλλογή στατιστικών τεχνικών που μας επιτρέπει να εκπαιδεύσουμε έναν υπολογιστή ώστε να εκτιμά μια απάντηση σε μια ερώτηση ακόμα και όταν δεν έχουμε κωδικοποιήσει ρητά τη σωστή απάντηση. Ένα καλά σχεδιασμένο σύστημα ML που εφαρμόζεται στον σωστό τύπο προβλήματος μπορεί να ξεκλειδώσει πληροφορίες που δεν θα ήταν εφικτές διαφορετικά.

Ένα επιτυχημένο παράδειγμα ML είναι επεξεργασία φυσικής γλώσσας
(NLP). Το NLP επιτρέπει στους υπολογιστές να «κατανοούν» την ανθρώπινη γλώσσα, συμπεριλαμβανομένων πραγμάτων όπως ιδιωματισμούς και μεταφορές. Από πολλές απόψεις, η κυβερνοασφάλεια αντιμετωπίζει τις ίδιες προκλήσεις με την επεξεργασία της γλώσσας. Οι επιτιθέμενοι μπορεί να μην χρησιμοποιούν ιδιωματισμούς, αλλά πολλές τεχνικές είναι ανάλογες με ομώνυμα, λέξεις που έχουν την ίδια ορθογραφία ή προφορά αλλά διαφορετική σημασία. Ορισμένες τεχνικές εισβολέων ομοίως μοιάζουν πολύ με ενέργειες που μπορεί να κάνει ένας διαχειριστής συστήματος για απολύτως ευνοϊκούς λόγους.

Τα περιβάλλοντα πληροφορικής διαφέρουν μεταξύ των οργανισμών ως προς τον σκοπό, την αρχιτεκτονική, την ιεράρχηση προτεραιοτήτων και την ανοχή κινδύνου. Είναι αδύνατο να δημιουργηθούν αλγόριθμοι, ML ή μη, που αντιμετωπίζουν ευρέως περιπτώσεις χρήσης ασφάλειας σε όλα τα σενάρια. Αυτός είναι ο λόγος για τον οποίο οι περισσότερες επιτυχημένες εφαρμογές ML στην ασφάλεια συνδυάζουν πολλαπλές μεθόδους για την αντιμετώπιση ενός πολύ συγκεκριμένου ζητήματος. Καλά παραδείγματα περιλαμβάνουν φίλτρα ανεπιθύμητης αλληλογραφίας, μετριασμό DDoS ή bot και ανίχνευση κακόβουλου λογισμικού.

Σκουπίδια μέσα, Σκουπίδια έξω

Η μεγαλύτερη πρόκληση στο ML είναι η διαθεσιμότητα σχετικών, χρησιμοποιήσιμων δεδομένων για την επίλυση του προβλήματός σας. Για εποπτευόμενη ML, χρειάζεστε ένα μεγάλο σύνολο δεδομένων με σωστή ετικέτα. Για να δημιουργήσετε ένα μοντέλο που προσδιορίζει φωτογραφίες γάτας, για παράδειγμα, εκπαιδεύετε το μοντέλο σε πολλές φωτογραφίες γατών με την ένδειξη "cat" και σε πολλές φωτογραφίες πραγμάτων που δεν είναι γάτες με την ένδειξη "not cat". Εάν δεν έχετε αρκετές φωτογραφίες ή εάν έχουν κακή σήμανση, το μοντέλο σας δεν θα λειτουργήσει καλά.

Στον τομέα της ασφάλειας, μια πολύ γνωστή περίπτωση χρήσης ML με επίβλεψη είναι ο εντοπισμός κακόβουλου λογισμικού χωρίς υπογραφή. Πολλοί προμηθευτές πλατφόρμας προστασίας τελικού σημείου (EPP) χρησιμοποιούν ML για να επισημαίνουν τεράστιες ποσότητες κακόβουλων δειγμάτων και καλοήθων δειγμάτων, εκπαιδεύοντας ένα μοντέλο σχετικά με το "πως φαίνεται το κακόβουλο λογισμικό". Αυτά τα μοντέλα μπορούν να αναγνωρίσουν σωστά το κακόβουλο λογισμικό αποφυγής μεταλλάξεων και άλλα τεχνάσματα όπου ένα αρχείο έχει τροποποιηθεί αρκετά ώστε να αποφύγει μια υπογραφή, αλλά παραμένει κακόβουλο. Το ML δεν ταιριάζει με την υπογραφή. Προβλέπει κακόβουλη χρήση χρησιμοποιώντας ένα άλλο σύνολο χαρακτηριστικών και συχνά μπορεί να συλλάβει κακόβουλο λογισμικό που χάνουν οι μέθοδοι που βασίζονται στην υπογραφή.

Ωστόσο, επειδή τα μοντέλα ML είναι πιθανολογικά, υπάρχει συμβιβασμός. Το ML μπορεί να εντοπίσει κακόβουλο λογισμικό που χάνουν οι υπογραφές, αλλά μπορεί επίσης να χάσει κακόβουλο λογισμικό που εντοπίζουν οι υπογραφές. Αυτός είναι ο λόγος για τον οποίο τα σύγχρονα εργαλεία EPP χρησιμοποιούν υβριδικές μεθόδους που συνδυάζουν ML και τεχνικές που βασίζονται σε υπογραφές για βέλτιστη κάλυψη.

Κάτι, Κάτι, Ψευδοθετικά

Ακόμα κι αν το μοντέλο είναι καλοφτιαγμένο, η ML παρουσιάζει ορισμένες πρόσθετες προκλήσεις όσον αφορά την ερμηνεία της εξόδου, όπως:

  • Το αποτέλεσμα είναι μια πιθανότητα.
    Το μοντέλο ML εξάγει την πιθανότητα κάτι. Εάν το μοντέλο σας έχει σχεδιαστεί για να αναγνωρίζει γάτες, θα έχετε αποτελέσματα όπως "αυτό το πράγμα είναι κατά 80% γάτα". Αυτή η αβεβαιότητα είναι ένα εγγενές χαρακτηριστικό των συστημάτων ML και μπορεί να κάνει το αποτέλεσμα δύσκολο να ερμηνευτεί. Αρκεί το 80% γάτα;
  • Το μοντέλο δεν μπορεί να συντονιστεί, τουλάχιστον όχι από τον τελικό χρήστη. Για τον χειρισμό των πιθανολογικών αποτελεσμάτων, ένα εργαλείο μπορεί να έχει όρια που ορίζονται από τον προμηθευτή που τα συμπτύσσουν σε δυαδικά αποτελέσματα. Για παράδειγμα, το μοντέλο αναγνώρισης γάτας μπορεί να αναφέρει ότι οτιδήποτε >90% «γάτα» είναι γάτα. Η ανοχή της επιχείρησής σας για τη γάτα μπορεί να είναι υψηλότερη ή χαμηλότερη από αυτή που έχει ορίσει ο προμηθευτής.
  • Ψευδώς αρνητικά (FN), η αποτυχία ανίχνευσης του πραγματικού κακού, είναι μια οδυνηρή συνέπεια των μοντέλων ML, ειδικά των κακώς συντονισμένων. Αντιπαθούμε τα ψευδώς θετικά (FP) γιατί χάνουν χρόνο. Αλλά υπάρχει μια εγγενής αντιστάθμιση μεταξύ των επιτοκίων FP και FN. Τα μοντέλα ML είναι ρυθμισμένα για να βελτιστοποιούν την αντιστάθμιση, δίνοντας προτεραιότητα στο "καλύτερο" ισοζύγιο ποσοστών FP-FN. Ωστόσο, η «σωστή» ισορροπία ποικίλλει μεταξύ των οργανισμών, ανάλογα με τις ατομικές τους απειλές και τις εκτιμήσεις κινδύνου. Όταν χρησιμοποιείτε προϊόντα που βασίζονται σε ML, πρέπει να εμπιστεύεστε τους προμηθευτές να επιλέξουν τα κατάλληλα όρια για εσάς.
  • Δεν υπάρχει αρκετό πλαίσιο για διαλογή ειδοποίησης. Μέρος της μαγείας της ML είναι η εξαγωγή ισχυρών προγνωστικών αλλά αυθαίρετων «χαρακτηριστικών» από σύνολα δεδομένων. Φανταστείτε ότι η ταυτοποίηση μιας γάτας έτυχε να συσχετίζεται σε μεγάλο βαθμό με τον καιρό. Κανένας άνθρωπος δεν θα σκεφτόταν έτσι. Αλλά αυτό είναι το νόημα της ML — να βρούμε μοτίβα που διαφορετικά δεν θα μπορούσαμε να βρούμε και να το κάνουμε σε κλίμακα. Ωστόσο, ακόμα κι αν ο λόγος για την πρόβλεψη μπορεί να εκτεθεί στον χρήστη, συχνά δεν είναι χρήσιμος σε μια κατάσταση διαλογής συναγερμού ή απόκρισης περιστατικού. Αυτό οφείλεται στο γεγονός ότι τα «χαρακτηριστικά» που τελικά καθορίζουν την απόφαση του συστήματος ML είναι βελτιστοποιημένα για προγνωστική ισχύ και όχι για πρακτική συνάφεια με τους αναλυτές ασφαλείας.

Θα μύριζε γλυκό το “Statistics” από οποιοδήποτε άλλο όνομα;

Πέρα από τα πλεονεκτήματα και τα μειονεκτήματα του ML, υπάρχει ένα ακόμη αιχμή: Δεν είναι όλα τα "ML" πραγματικά ML. Τα στατιστικά στοιχεία σας δίνουν ορισμένα συμπεράσματα σχετικά με τα δεδομένα σας. Η ML κάνει προβλέψεις για δεδομένα που δεν είχατε με βάση τα δεδομένα που είχατε. Οι έμποροι έχουν κολλήσει με ενθουσιασμό στο "μάθηση μηχανής» και «τεχνητή νοημοσύνη» για να σηματοδοτήσει ένα σύγχρονο, καινοτόμο, προηγμένης τεχνολογίας προϊόν κάποιου είδους. Ωστόσο, συχνά υπάρχει πολύ μικρή σημασία για το αν η τεχνολογία χρησιμοποιεί καν ML, δεν πειράζει αν η ML ήταν η σωστή προσέγγιση.

Λοιπόν, μπορεί η ML να εντοπίσει το κακό ή όχι;

Η ML μπορεί να ανιχνεύσει το κακό όταν το "κακό" είναι καλά καθορισμένο και περιορισμένο. Μπορεί επίσης να ανιχνεύσει αποκλίσεις από την αναμενόμενη συμπεριφορά σε εξαιρετικά προβλέψιμα συστήματα. Όσο πιο σταθερό είναι το περιβάλλον, τόσο πιο πιθανό είναι η ML να εντοπίσει σωστά τις ανωμαλίες. Αλλά δεν είναι κάθε ανωμαλία κακόβουλη και ο χειριστής δεν είναι πάντα εξοπλισμένος με αρκετό πλαίσιο για να ανταποκριθεί. Η υπερδύναμη της ML δεν είναι η αντικατάσταση αλλά η επέκταση των δυνατοτήτων των υπαρχουσών μεθόδων, συστημάτων και ομάδων για βέλτιστη κάλυψη και αποτελεσματικότητα.

Σφραγίδα ώρας:

Περισσότερα από Σκοτεινή ανάγνωση