Incident Post Mortem: 23 Νοεμβρίου 2021 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Συμβάν μετά θάνατον: 23 Νοεμβρίου 2021

Χαρακτηριστικά

Μεταξύ 4:00 μ.μ. και περίπου 5:36 μ.μ. PT την Τρίτη 23 Νοεμβρίου, αντιμετωπίσαμε μια διακοπή λειτουργίας στα περισσότερα συστήματα παραγωγής Coinbase. Κατά τη διάρκεια αυτής της διακοπής, οι χρήστες δεν μπόρεσαν να αποκτήσουν πρόσβαση στο Coinbase χρησιμοποιώντας τους ιστότοπους και τις εφαρμογές μας και επομένως δεν μπορούσαν να χρησιμοποιήσουν τα προϊόντα μας. Αυτή η ανάρτηση έχει σκοπό να περιγράψει τι συνέβη και τις αιτίες και να συζητήσει πώς σχεδιάζουμε να αποφύγουμε τέτοια προβλήματα στο μέλλον.

Το περιστατικό

Στις 23 Νοεμβρίου 2021, στις 4:00 μ.μ. PT (24 Νοεμβρίου 2021 00:00 UTC) έληξε ένα πιστοποιητικό SSL για ένα εσωτερικό όνομα κεντρικού υπολογιστή σε έναν από τους λογαριασμούς μας στις Υπηρεσίες Ιστού Amazon (AWS). Το ληγμένο πιστοποιητικό SSL χρησιμοποιήθηκε από πολλούς από τους εσωτερικούς μας εξισορροπητές φορτίου, γεγονός που προκάλεσε την αποτυχία της πλειονότητας των επικοινωνιών μεταξύ των υπηρεσιών. Λόγω του γεγονότος ότι το επίπεδο δρομολόγησης API συνδέεται με υπηρεσίες υποστήριξης μέσω υποτομέων αυτού του εσωτερικού ονόματος κεντρικού υπολογιστή, περίπου το 90% της εισερχόμενης επισκεψιμότητας API εμφάνισε σφάλματα.

Τα ποσοστά σφαλμάτων επέστρεψαν στο κανονικό όταν μπορέσαμε να μετεγκαταστήσουμε όλους τους εξισορροπητές φορτίου σε ένα έγκυρο πιστοποιητικό.

Incident Post Mortem: 23 Νοεμβρίου 2021 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Γράφημα που απεικονίζει το συνολικό ποσοστό σφάλματος 90% στο επίπεδο δρομολόγησης API για τη διάρκεια του συμβάντος.

Πλαίσιο: Πιστοποιητικά στο Coinbase

Είναι χρήσιμο να παρέχετε κάποιες βασικές πληροφορίες σχετικά με τον τρόπο διαχείρισης των πιστοποιητικών SSL στο Coinbase. Ως επί το πλείστον, τα πιστοποιητικά για δημόσια ονόματα κεντρικών υπολογιστών όπως το coinbase.com διαχειρίζονται και παρέχονται από το Cloudflare. Για πιστοποιητικά για εσωτερικά ονόματα κεντρικών υπολογιστών που χρησιμοποιούνται για τη δρομολόγηση της κυκλοφορίας μεταξύ υπηρεσιών υποστήριξης, χρησιμοποιούσαμε ιστορικά πιστοποιητικά διακομιστή AWS IAM.

Ένα από τα μειονεκτήματα των πιστοποιητικών διακομιστή IAM είναι ότι τα πιστοποιητικά πρέπει να δημιουργούνται εκτός του AWS και να μεταφορτώνονται μέσω κλήσης API. Έτσι πέρυσι, η ομάδα υποδομής μας μετεγκαταστάθηκε από τα Πιστοποιητικά Διακομιστή IAM στη Διαχείριση Πιστοποιητικών AWS (ACM). Η ACM επιλύει το πρόβλημα ασφάλειας επειδή το AWS δημιουργεί τόσο τα δημόσια όσο και τα ιδιωτικά στοιχεία του πιστοποιητικού εντός του ACM και αποθηκεύει την κρυπτογραφημένη έκδοση στο IAM για εμάς. Μόνο συνδεδεμένες υπηρεσίες όπως το Cloudfront και το Elastic Load Balancer θα έχουν πρόσβαση στα πιστοποιητικά. Αρνούμενος το acm:ExportCertificate άδεια σε όλους τους Ρόλους AWS IAM διασφαλίζει ότι δεν είναι δυνατή η εξαγωγή τους.

Εκτός από τα πρόσθετα πλεονεκτήματα ασφαλείας, η ACM ανανεώνει αυτόματα τα πιστοποιητικά πριν τη λήξη τους. Δεδομένου ότι τα πιστοποιητικά ACM υποτίθεται ότι ανανεώνονται και κάναμε μια μετεγκατάσταση, πώς έγινε αυτό;

Ανάλυση των βαθύτερων αιτίων

Οι υπεύθυνοι αντιμετώπισης περιστατικών παρατήρησαν γρήγορα ότι το πιστοποιητικό που είχε λήξει ήταν πιστοποιητικό διακομιστή IAM. Αυτό ήταν απροσδόκητο επειδή η προαναφερθείσα μετεγκατάσταση ACM είχε δημοσιευτεί ευρέως στα μηχανικά κανάλια επικοινωνίας εκείνη την εποχή. Επομένως, λειτουργούσαμε με την υπόθεση ότι λειτουργούσαμε αποκλειστικά με πιστοποιητικά ACM.

Όπως ανακαλύψαμε αργότερα, μία από τις μετεγκαταστάσεις του πιστοποιητικού δεν πήγε όπως είχε προγραμματιστεί. η ομάδα μηχανικών που εργάζονταν στη μετανάστευση ανέβασε ένα νέο πιστοποιητικό IAM και ανέβαλε την υπόλοιπη μετανάστευση. Δυστυχώς, η καθυστέρηση δεν κοινοποιήθηκε τόσο ευρέως όσο θα έπρεπε και οι αλλαγές στη δομή της ομάδας και στο προσωπικό είχαν ως αποτέλεσμα να θεωρηθεί εσφαλμένα ότι το έργο έχει ολοκληρωθεί.

Εκτός από το καθεστώς μετανάστευσης, μπορείτε να κάνετε την ίδια ερώτηση που θέσαμε στον εαυτό μας: "Γιατί δεν ενημερωθήκαμε για αυτό το πιστοποιητικό που λήγει;" Η απάντηση είναι: ήμασταν. Οι ειδοποιήσεις αποστέλλονταν σε μια ομάδα διανομής email που ανακαλύψαμε ότι αποτελούνταν μόνο από δύο άτομα. Αυτή η ομάδα ήταν αρχικά μεγαλύτερη, αλλά συρρικνώθηκε με την αποχώρηση των μελών της ομάδας και ποτέ δεν ξανακατοικήθηκε επαρκώς καθώς νέοι άνθρωποι μπήκαν στην ομάδα.

Εν ολίγοις, το κρίσιμο πιστοποιητικό επετράπη να λήξει λόγω και των τριών παραγόντων:

  1. Η μετάβαση από το IAM σε ACM ήταν ατελής.
  2. Οι ειδοποιήσεις λήξης αποστέλλονταν μόνο μέσω email και φιλτράρονταν ή αγνοήθηκαν.
  3. Μόνο δύο άτομα ήταν στη λίστα διανομής email.

Ανάλυση & Βελτιώσεις

Για να επιλύσουμε το συμβάν, μετεγκαταστήσαμε όλους τους εξισορροπητές φορτίου που χρησιμοποιούσαν το ληγμένο πιστοποιητικό IAM στο υπάρχον πιστοποιητικό ACM με αυτόματη ανανέωση που είχε προβλεφθεί ως μέρος του αρχικού σχεδίου μετεγκατάστασης. Αυτό κράτησε περισσότερο από το επιθυμητό λόγω του αριθμού των εμπλεκόμενων εξισορροπητών φορτίου και της επιφυλακτικότητάς μας στον καθορισμό, τη δοκιμή και την εφαρμογή των απαιτούμενων αλλαγών υποδομής.

Προκειμένου να διασφαλίσουμε ότι δεν θα αντιμετωπίσουμε ξανά ένα τέτοιο ζήτημα, έχουμε λάβει τα ακόλουθα βήματα για να αντιμετωπίσουμε τους παράγοντες που αναφέρονται στην ενότητα RCA παραπάνω:

  1. Ολοκληρώσαμε τη μετεγκατάσταση στο ACM, δεν χρησιμοποιούμε πλέον πιστοποιητικά διακομιστή IAM και διαγράφουμε τυχόν παλαιού τύπου πιστοποιητικά για να μειώσουμε το θόρυβο.
  2. Προσθέτουμε αυτοματοποιημένη παρακολούθηση που είναι συνδεδεμένη με το σύστημα ειδοποίησης και σελιδοποίησης για να αυξήσουμε τις ειδοποιήσεις μέσω email. Αυτά θα εμφανιστούν στην επικείμενη λήξη καθώς και όταν τα πιστοποιητικά ACM δεν πληρούν τις προϋποθέσεις για αυτόματη ανανέωση.
  3. Προσθέσαμε ένα μόνιμο ψευδώνυμο ομάδας στη λίστα διανομής email. Επιπλέον, αυτή η ομάδα ενημερώνεται αυτόματα καθώς οι εργαζόμενοι εντάσσονται και αποχωρούν από την εταιρεία.
  4. Δημιουργούμε ένα αποθετήριο λειτουργιών αποκατάστασης περιστατικών, προκειμένου να μειώσουμε το χρόνο για τον ορισμό, τη δοκιμή και την εφαρμογή νέων αλλαγών.

Λαμβάνουμε πολύ σοβαρά υπόψη το χρόνο λειτουργίας και την απόδοση της υποδομής μας και εργαζόμαστε σκληρά για να υποστηρίξουμε τα εκατομμύρια των πελατών που επιλέγουν το Coinbase για τη διαχείριση του κρυπτονομίσματος τους. Εάν ενδιαφέρεστε να λύσετε προκλήσεις όπως αυτές που αναφέρονται εδώ, έλα δουλειά μαζί μας.

Incident Post Mortem: 23 Νοεμβρίου 2021 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.


Συμβάν μετά θάνατον: 23 Νοεμβρίου 2021 αρχικά δημοσιεύτηκε το Το Ιστολόγιο Coinbase στο Medium, όπου οι άνθρωποι συνεχίζουν τη συζήτηση επισημαίνοντας και απαντώντας σε αυτήν την ιστορία.

Source: https://blog.coinbase.com/incident-post-mortem-november-23-2021-d507821b8459?source=rss—-c114225aeaf7—4

Σφραγίδα ώρας:

Περισσότερα από Coinbase