Διορθώστε ευαίσθητα δεδομένα από ροή δεδομένων σε σχεδόν πραγματικό χρόνο χρησιμοποιώντας το Amazon Comprehend και το Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Διορθώστε ευαίσθητα δεδομένα από ροή δεδομένων σε σχεδόν πραγματικό χρόνο χρησιμοποιώντας το Amazon Comprehend και το Amazon Kinesis Data Firehose

Η παράδοση δεδομένων και πληροφοριών σε σχεδόν πραγματικό χρόνο επιτρέπει στις επιχειρήσεις να ανταποκρίνονται γρήγορα στις ανάγκες των πελατών τους. Τα δεδομένα σε πραγματικό χρόνο μπορούν να προέρχονται από διάφορες πηγές, συμπεριλαμβανομένων των μέσων κοινωνικής δικτύωσης, συσκευών IoT, παρακολούθησης υποδομής, παρακολούθησης τηλεφωνικών κέντρων και άλλων. Λόγω του εύρους και του βάθους των δεδομένων που λαμβάνονται από πολλές πηγές, οι επιχειρήσεις αναζητούν λύσεις για να προστατεύσουν το απόρρητο των πελατών τους και να αποτρέψουν την πρόσβαση σε ευαίσθητα δεδομένα από τα τελικά συστήματα. Προηγουμένως έπρεπε να βασίζεστε σε μηχανές κανόνων προσωπικής ταυτοποίησης πληροφοριών (PII) που θα μπορούσαν να επισημάνουν ψευδώς θετικά στοιχεία ή να χάσουν δεδομένα ή έπρεπε να δημιουργήσετε και να διατηρήσετε προσαρμοσμένα μοντέλα μηχανικής εκμάθησης (ML) για να προσδιορίσετε PII στα δεδομένα ροής σας. Χρειάστηκε επίσης να εφαρμόσετε και να διατηρήσετε την απαραίτητη υποδομή για την υποστήριξη αυτών των κινητήρων ή μοντέλων.

Για να βοηθήσετε στον εξορθολογισμό αυτής της διαδικασίας και στη μείωση του κόστους, μπορείτε να χρησιμοποιήσετε Κατανοήστε το Amazon, μια υπηρεσία επεξεργασίας φυσικής γλώσσας (NLP) που χρησιμοποιεί ML για να βρει πληροφορίες και σχέσεις όπως άτομα, μέρη, συναισθήματα και θέματα σε μη δομημένο κείμενο. Τώρα μπορείτε να χρησιμοποιήσετε τις δυνατότητες του Amazon Comprehend ML για τον εντοπισμό και τη διόρθωση PII σε μηνύματα ηλεκτρονικού ταχυδρομείου πελατών, εισιτήρια υποστήριξης, κριτικές προϊόντων, μέσα κοινωνικής δικτύωσης και πολλά άλλα. Δεν απαιτείται εμπειρία ML. Για παράδειγμα, μπορείτε να αναλύσετε εισιτήρια υποστήριξης και άρθρα γνώσεων για να εντοπίσετε οντότητες PII και να διορθώσετε το κείμενο πριν δημιουργήσετε ευρετήριο των εγγράφων. Μετά από αυτό, τα έγγραφα είναι απαλλαγμένα από οντότητες PII και οι χρήστες μπορούν να καταναλώσουν τα δεδομένα. Η επεξεργασία οντοτήτων PII σάς βοηθά να προστατεύσετε το απόρρητο των πελατών σας και να συμμορφώνεστε με τους τοπικούς νόμους και κανονισμούς.

Σε αυτήν την ανάρτηση, μαθαίνετε πώς να εφαρμόσετε το Amazon Comprehend στις αρχιτεκτονικές ροής σας για να διορθώσετε οντότητες PII σε σχεδόν πραγματικό χρόνο χρησιμοποιώντας Firehose δεδομένων Amazon Kinesis με AWS Lambda.

Αυτή η ανάρτηση επικεντρώνεται στην επεξεργασία δεδομένων από επιλεγμένα πεδία που εισάγονται σε μια αρχιτεκτονική ροής χρησιμοποιώντας το Kinesis Data Firehose, όπου θέλετε να δημιουργήσετε, να αποθηκεύσετε και να διατηρήσετε πρόσθετα παράγωγα αντίγραφα των δεδομένων για κατανάλωση από τελικούς χρήστες ή μεταγενέστερες εφαρμογές. Εάν χρησιμοποιείτε Ροές δεδομένων Amazon Kinesis ή έχετε επιπλέον περιπτώσεις χρήσης εκτός της έκδοσης PII, ανατρέξτε στο Μετάφραση, επεξεργασία και ανάλυση δεδομένων ροής χρησιμοποιώντας συναρτήσεις SQL με το Amazon Kinesis Data Analytics, το Amazon Translate και το Amazon Comprehend, όπου δείχνουμε πώς μπορείτε να χρησιμοποιήσετε Amazon Kinesis Data Analytics Studio τροφοδοτείται από Απάτσι Ζέπελιν και Apache Flash για διαδραστική ανάλυση, μετάφραση και επεξεργασία πεδίων κειμένου σε δεδομένα ροής.

Επισκόπηση λύσεων

Το παρακάτω σχήμα δείχνει ένα παράδειγμα αρχιτεκτονικής για την εκτέλεση επεξεργασίας PII δεδομένων ροής σε πραγματικό χρόνο, χρησιμοποιώντας Απλή υπηρεσία αποθήκευσης Amazon (Amazon S3), Μετασχηματισμός δεδομένων Kinesis Data Firehose, Κατανοήστε το Amazon, να AWS Lambda. Επιπλέον, χρησιμοποιούμε το AWS SDK για Python (Boto3) για τις συναρτήσεις Λάμδα. Όπως υποδεικνύεται στο διάγραμμα, ο ακατέργαστος κάδος S3 περιέχει δεδομένα που δεν έχουν διορθωθεί και ο κάδος με επεξεργασία του S3 περιέχει δεδομένα που έχουν αναγραφεί μετά τη χρήση του Amazon Comprehend DetectPiiEntities API σε μια συνάρτηση Lambda.

Συνεχόμενα έξοδα

Εκτός από το κόστος Kinesis Data Firehose, Amazon S3 και Lambda, αυτή η λύση θα επιφέρει κόστος χρήσης από το Amazon Comprehend. Το ποσό που πληρώνετε είναι ένας παράγοντας του συνολικού αριθμού εγγραφών που περιέχουν PII και των χαρακτήρων που επεξεργάζονται η συνάρτηση Lambda. Για περισσότερες πληροφορίες, ανατρέξτε στο Τιμολόγηση Amazon Kinesis Data Firehose, Τιμοκατάλογος Amazon, να Τιμές AWS Lambda.

Για παράδειγμα, ας υποθέσουμε ότι έχετε 10,000 εγγραφές αρχείων καταγραφής και η τιμή κλειδιού από την οποία θέλετε να αφαιρέσετε τα PII είναι 500 χαρακτήρες. Από τις 10,000 εγγραφές καταγραφής, οι 50 προσδιορίζονται ότι περιέχουν PII. Οι λεπτομέρειες του κόστους έχουν ως εξής:

Περιέχει Κόστος PII:

  • Μέγεθος κάθε τιμής κλειδιού = 500 χαρακτήρες (1 μονάδα = 100 χαρακτήρες)
  • Αριθμός μονάδων (100 χαρακτήρες) ανά εγγραφή (το ελάχιστο είναι 3 μονάδες) = 5
  • Συνολικές μονάδες = 10,000 (εγγραφές) x 5 (μονάδες ανά εγγραφή) x 1 (αιτήματα Amazon Comprehend ανά εγγραφή) = 50,000
  • Τιμή ανά μονάδα = 0.000002 $
    • Συνολικό κόστος για την αναγνώριση εγγραφών καταγραφής με PII χρησιμοποιώντας ContainsPiiEntities API = 0.1 $ [50,000 μονάδες x 0.000002 $] 

Κόστος Redact PII:

  • Συνολικές μονάδες που περιέχουν PII = 50 (εγγραφές) x 5 (μονάδες ανά εγγραφή) x 1 (Αιτήματα Amazon Comprehend ανά εγγραφή) = 250
  • Τιμή ανά μονάδα = 0.0001 $
    • Συνολικό κόστος για τον προσδιορισμό της τοποθεσίας των PII χρησιμοποιώντας το DetectPiiEntities API = [αριθμός μονάδων] x [κόστος ανά μονάδα] = 250 x 0.0001 $ = 0.025 $

Συνολικό κόστος αναγνώρισης και διόρθωσης:

  • Συνολικό κόστος: 0.1 $ (επικύρωση εάν το πεδίο περιέχει PII) + 0.025 $ (διόρθωση πεδίων που περιέχουν PII) = 0.125 $

Αναπτύξτε τη λύση με AWS CloudFormation

Για αυτήν την ανάρτηση, παρέχουμε ένα AWS CloudFormation επεξεργασία δεδομένων ροής πρότυπο, το οποίο παρέχει τις πλήρεις λεπτομέρειες της υλοποίησης για να επιτρέψει επαναλαμβανόμενες αναπτύξεις. Κατά την ανάπτυξη, αυτό το πρότυπο δημιουργεί δύο κάδους S3: έναν για την αποθήκευση των ακατέργαστων δειγματοληπτικών δεδομένων που λαμβάνονται από το Amazon Kinesis Data Generator (KDG) και έναν για την αποθήκευση των ανακατασκευασμένων δεδομένων. Επιπλέον, δημιουργεί μια ροή παράδοσης Kinesis Data Firehose με DirectPUT ως είσοδο, και μια συνάρτηση Lambda που καλεί το Amazon Comprehend ΠεριέχειPiiEntities και DetectPiiEntities API για αναγνώριση και διόρθωση δεδομένων PII. Η συνάρτηση Lambda βασίζεται στην είσοδο του χρήστη στις μεταβλητές περιβάλλοντος για να καθορίσει ποιες βασικές τιμές πρέπει να επιθεωρηθούν για PII.

Η συνάρτηση Lambda σε αυτήν τη λύση έχει περιορισμένα μεγέθη ωφέλιμου φορτίου στα 100 KB. Εάν παρέχεται ωφέλιμο φορτίο όπου το κείμενο είναι μεγαλύτερο από 100 KB, η συνάρτηση Lambda θα το παρακάμψει.

Για να αναπτύξετε τη λύση, ακολουθήστε τα παρακάτω βήματα:

  1. Εκκινήστε τη στοίβα CloudFormation στο US East (N. Virginia) us-east-1:
    Διορθώστε ευαίσθητα δεδομένα από ροή δεδομένων σε σχεδόν πραγματικό χρόνο χρησιμοποιώντας το Amazon Comprehend και το Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
  2. Εισαγάγετε ένα όνομα στοίβας και αφήστε άλλες παραμέτρους στην προεπιλογή τους
  3. Αγορά Αναγνωρίζω ότι το AWS CloudFormation ενδέχεται να δημιουργήσει πόρους IAM με προσαρμοσμένα ονόματα.
  4. Επιλέξτε Δημιουργία στοίβας.

Ανάπτυξη πόρων με μη αυτόματο τρόπο

Εάν προτιμάτε να δημιουργήσετε την αρχιτεκτονική με μη αυτόματο τρόπο αντί να χρησιμοποιήσετε το AWS CloudFormation, ολοκληρώστε τα βήματα σε αυτήν την ενότητα.

Δημιουργήστε τους κάδους S3

Δημιουργήστε τους κάδους S3 με τα ακόλουθα βήματα:

  1. Στην κονσόλα Amazon S3, επιλέξτε Κουβάδες στο παράθυρο πλοήγησης.
  2. Επιλέξτε Δημιουργία κάδου.
  3. Δημιουργήστε έναν κάδο για τα ανεπεξέργαστα δεδομένα σας και έναν για τα συντεταγμένα δεδομένα σας.
  4. Σημειώστε τα ονόματα των κουβάδων που μόλις δημιουργήσατε.

Δημιουργήστε τη συνάρτηση Λάμδα

Για να δημιουργήσετε και να αναπτύξετε τη συνάρτηση Lambda, ολοκληρώστε τα ακόλουθα βήματα:

  1. Στην κονσόλα Lambda, επιλέξτε Δημιουργία λειτουργίας.
  2. Επιλέξτε Συγγραφέας από το μηδέν.
  3. Για Όνομα συνάρτησης, εισαγω AmazonComprehendPII-Redact.
  4. Για Διάρκεια, επιλέξτε Python 3.9.
  5. Για Αρχιτεκτονική, Επιλέξτε x86_64.
  6. Για Ο ρόλος εκτέλεσης, Επιλέξτε Δημιουργήστε έναν νέο ρόλο με δικαιώματα Lambda.
  7. Αφού δημιουργήσετε τη συνάρτηση, πληκτρολογήστε τον ακόλουθο κωδικό:
    import json
    import boto3
    import os
    import base64
    import sys
    
    def lambda_handler(event, context):
        
        output = []
        
        for record in event['records']:
            
            # Gathers keys from enviroment variables and makes a list of desired keys to check for PII
            rawkeys = os.environ['keys']
            splitkeys = rawkeys.split(", ")
            print(splitkeys)
            #decode base64
            #Kinesis data is base64 encoded so decode here
            payloadraw=base64.b64decode(record["data"]).decode('utf-8')
            #Loads decoded payload into json
            payloadjsonraw = json.loads(payloadraw)
            
            # Creates Comprehend client
            comprehend_client = boto3.client('comprehend')
            
            
            # This codes handles the logic to check for keys, identify if PII exists, and redact PII if available. 
            for i in payloadjsonraw:
                # checks if the key found in the message matches a redact
                if i in splitkeys:
                    print("Redact key found, checking for PII")
                    payload = str(payloadjsonraw[i])
                    # check if payload size is less than 100KB
                    if sys.getsizeof(payload) < 99999:
                        print('Size is less than 100KB checking if value contains PII')
                        # Runs Comprehend ContainsPiiEntities API call to see if key value contains PII
                        pii_identified = comprehend_client.contains_pii_entities(Text=payload, LanguageCode='en')
                        
                        # If PII is not found, skip over key
                        if (pii_identified['Labels']) == []:
                            print('No PII found')
                        else:
                        # if PII is found, run through redaction logic
                            print('PII found redacting')
                            # Runs Comprehend DetectPiiEntities call to find exact location of PII
                            response = comprehend_client.detect_pii_entities(Text=payload, LanguageCode='en')
                            entities = response['Entities']
                            # creates redacted_payload which will be redacted
                            redacted_payload = payload
                            # runs through a loop that gathers necessary values from Comprehend API response and redacts values
                            for entity in entities:
                                char_offset_begin = entity['BeginOffset']
                                char_offset_end = entity['EndOffset']
                                redacted_payload = redacted_payload[:char_offset_begin] + '*'*(char_offset_end-char_offset_begin) + redacted_payload[char_offset_end:]
                            # replaces original value with redacted value
                            payloadjsonraw[i] = redacted_payload
                            print(str(payloadjsonraw[i]))
                    else:
                        print ('Size is more than 100KB, skipping inspection')
                else:
                    print("Key value not found in redaction list")
            
            redacteddata = json.dumps(payloadjsonraw)
            
            # adds inspected record to record
            output_record = {
                'recordId': record['recordId'],
                'result': 'Ok',
                'data' : base64.b64encode(redacteddata.encode('utf-8'))
            }
            output.append(output_record)
            print(output_record)
            
        print('Successfully processed {} records.'.format(len(event['records'])))
        
        return {'records': output}

  8. Επιλέξτε Ανάπτυξη.
  9. Στο παράθυρο πλοήγησης, επιλέξτε Διαμόρφωση.
  10. Πλοηγηθείτε στο Μεταβλητές περιβάλλοντος.
  11. Επιλέξτε Αλλαγή.
  12. Για Κλειδί, εισαγω keys.
  13. Για αξία, εισαγάγετε τις βασικές τιμές από τις οποίες θέλετε να αφαιρέσετε τα PII, διαχωρισμένες με κόμμα και διάστημα. Για παράδειγμα, εισάγετε Tweet1, Tweet2 εάν χρησιμοποιείτε τα δείγματα δεδομένων δοκιμής που παρέχονται στην επόμενη ενότητα αυτής της ανάρτησης.
  14. Επιλέξτε Αποθήκευση.
  15. Πλοηγηθείτε στο Γενική διαμόρφωση.
  16. Επιλέξτε Αλλαγή.
  17. Αλλάξτε την τιμή του Χρονικό όριο έως 1 λεπτό.
  18. Επιλέξτε Αποθήκευση.
  19. Πλοηγηθείτε στο Δικαιώματα.
  20. Επιλέξτε το όνομα του ρόλου κάτω Ρόλος Εκτέλεσης.
    Ανακατευθύνεστε στο Διαχείριση ταυτότητας και πρόσβασης AWS (IAM) κονσόλα.
  21. Για Προσθέστε δικαιώματα, επιλέξτε Επισύναψη πολιτικών.
  22. εισάγετε Comprehend στη γραμμή αναζήτησης και επιλέξτε την πολιτική ComprehendFullAccess.
  23. Επιλέξτε Επισύναψη πολιτικών.

Δημιουργήστε τη ροή παράδοσης Firehose

Για να δημιουργήσετε τη ροή παράδοσης Firehose, ολοκληρώστε τα παρακάτω βήματα:

  1. Στην κονσόλα Kinesis Data Firehose, επιλέξτε Δημιουργία ροής παράδοσης.
  2. Για Πηγή, Επιλέξτε Απευθείας ΠΟΥ.
  3. Για Προορισμός, Επιλέξτε Amazon S3.
  4. Για Όνομα ροής παράδοσης, εισαγω ComprehendRealTimeBlog.
  5. Κάτω από Μετατρέψτε τις εγγραφές πηγής με το AWS Lambda, Επιλέξτε Ενεργοποιήθηκε.
  6. Για Λειτουργία AWS Lambda, εισαγάγετε το ARN για τη συνάρτηση που δημιουργήσατε ή περιηγηθείτε στη συνάρτηση AmazonComprehendPII-Redact.
  7. Για Μέγεθος buffer, ορίστε την τιμή σε 1 MB.
  8. Για Διάστημα προσωρινής αποθήκευσης, αφήστε το για 60 δευτερόλεπτα.
  9. Κάτω από Ρυθμίσεις προορισμού, επιλέξτε τον κάδο S3 που δημιουργήσατε για τα αναγραφόμενα δεδομένα.
  10. Κάτω από Ρυθμίσεις αντιγράφων ασφαλείας, επιλέξτε τον κάδο S3 που δημιουργήσατε για τις μη επεξεργασμένες εγγραφές.
  11. Κάτω από Άδεια, είτε δημιουργήστε είτε ενημερώστε έναν ρόλο IAM είτε επιλέξτε έναν υπάρχοντα ρόλο με τα κατάλληλα δικαιώματα.
  12. Επιλέξτε Δημιουργία ροής παράδοσης.

Αναπτύξτε τη λύση δεδομένων ροής με το Kinesis Data Generator

Μπορείτε να χρησιμοποιήσετε το Kinesis Data Generator (KDG) για να απορροφήσετε δείγματα δεδομένων στο Kinesis Data Firehose και να δοκιμάσετε το διάλυμα. Για να απλοποιήσουμε αυτή τη διαδικασία, παρέχουμε μια συνάρτηση Lambda και ένα πρότυπο CloudFormation για τη δημιουργία ενός Amazon Cognito χρήστη και εκχωρήστε τα κατάλληλα δικαιώματα για τη χρήση του KDG.

  1. Στις Σελίδα Amazon Kinesis Data Generator, επιλέξτε Δημιουργήστε έναν χρήστη Cognito με το CloudFormation.Έχετε ανακατευθυνθεί στην κονσόλα AWS CloudFormation για να δημιουργήσετε τη στοίβα σας.
  2. Δώστε ένα όνομα χρήστη και έναν κωδικό πρόσβασης για τον χρήστη με τον οποίο συνδέεστε στο KDG.
  3. Αφήστε τις άλλες ρυθμίσεις στις προεπιλογές τους και δημιουργήστε τη στοίβα σας.
  4. Στις Έξοδοι καρτέλα, επιλέξτε τον σύνδεσμο KDG UI.
  5. Εισαγάγετε το όνομα χρήστη και τον κωδικό πρόσβασής σας για να συνδεθείτε.

Στείλτε αρχεία δοκιμών και επικυρώστε τη διόρθωση στο Amazon S3

Για να δοκιμάσετε τη λύση, ακολουθήστε τα παρακάτω βήματα:

  1. Συνδεθείτε στη διεύθυνση URL του KDG που δημιουργήσατε στο προηγούμενο βήμα.
  2. Επιλέξτε την περιοχή όπου αναπτύχθηκε η στοίβα AWS CloudFormation.
  3. Για Ροή ροής/παράδοσης, επιλέξτε τη ροή παράδοσης που δημιουργήσατε (αν χρησιμοποιήσατε το πρότυπο, έχει τη μορφή accountnumber-awscomprehend-blog).
  4. Αφήστε τις υπόλοιπες ρυθμίσεις στις προεπιλογές τους.
  5. Για το πρότυπο εγγραφής, μπορείτε να δημιουργήσετε τις δικές σας δοκιμές ή να χρησιμοποιήσετε το ακόλουθο πρότυπο. Εάν χρησιμοποιείτε τα παρεχόμενα δείγματα δεδομένων παρακάτω για δοκιμή, θα πρέπει να έχετε ενημερωμένες μεταβλητές περιβάλλοντος στο AmazonComprehendPII-Redact Συνάρτηση λάμδα προς Tweet1, Tweet2. Εάν αναπτυχθεί μέσω του CloudFormation, ενημερώστε τις μεταβλητές περιβάλλοντος σε Tweet1, Tweet2 μέσα στη συνάρτηση Λάμδα που δημιουργήθηκε. Τα δείγματα δεδομένων δοκιμής είναι τα παρακάτω:
    {"User":"12345", "Tweet1":" Good morning, everybody. My name is Van Bokhorst Serdar, and today I feel like sharing a whole lot of personal information with you. Let's start with my Email address SerdarvanBokhorst@dayrep.com. My address is 2657 Koontz Lane, Los Angeles, CA. My phone number is 818-828-6231.", "Tweet2": "My Social security number is 548-95-6370. My Bank account number is 940517528812 and routing number 195991012. My credit card number is 5534816011668430, Expiration Date 6/1/2022, my C V V code is 121, and my pin 123456. Well, I think that's it. You know a whole lot about me. And I hope that Amazon comprehend is doing a good job at identifying PII entities so you can redact my personal information away from this streaming record. Let's check"}

  6. Επιλέξτε Αποστολή Δεδομένωνκαι αφήστε μερικά δευτερόλεπτα για να σταλούν οι εγγραφές στη ροή σας.
  7. Μετά από λίγα δευτερόλεπτα, σταματήστε τη γεννήτρια KDG και ελέγξτε τους κάδους S3 για τα παραδοθέντα αρχεία.

Το παρακάτω είναι ένα παράδειγμα των πρωτογενών δεδομένων στον ακατέργαστο κάδο S3:

{"User":"12345", "Tweet1":" Good morning, everybody. My name is Van Bokhorst Serdar, and today I feel like sharing a whole lot of personal information with you. Let's start with my Email address SerdarvanBokhorst@dayrep.com. My address is 2657 Koontz Lane, Los Angeles, CA. My phone number is 818-828-6231.", "Tweet2": "My Social security number is 548-95-6370. My Bank account number is 940517528812 and routing number 195991012. My credit card number is 5534816011668430, Expiration Date 6/1/2022, my C V V code is 121, and my pin 123456. Well, I think that's it. You know a whole lot about me. And I hope that Amazon comprehend is doing a good job at identifying PII entities so you can redact my personal information away from this streaming record. Let's check"}

Το παρακάτω είναι ένα παράδειγμα των δεδομένων που έχουν ανανεωθεί στον αναθεωρημένο κάδο S3:

{"User":"12345", "Tweet1":"Good morning, everybody. My name is *******************, and today I feel like sharing a whole lot of personal information with you. Let's start with my Email address ****************************. My address is ********************************** My phone number is ************.", "Tweet"2: "My Social security number is ***********. My Bank account number is ************ and routing number *********. My credit card number is ****************, Expiration Date ********, my C V V code is ***, and my pin ******. Well, I think that's it. You know a whole lot about me. And I hope that Amazon comprehend is doing a good job at identifying PII entities so you can redact my personal information away from this streaming record. Let's check"}

Οι ευαίσθητες πληροφορίες έχουν αφαιρεθεί από τα αναδιατυπωμένα μηνύματα, παρέχοντας σιγουριά ότι μπορείτε να μοιραστείτε αυτά τα δεδομένα με τα τελικά συστήματα.

Εκκαθάριση

Όταν ολοκληρώσετε τον πειραματισμό με αυτήν τη λύση, καθαρίστε τους πόρους σας χρησιμοποιώντας την κονσόλα AWS CloudFormation για να διαγράψετε όλους τους πόρους που έχουν αναπτυχθεί σε αυτό το παράδειγμα. Εάν ακολουθήσατε τα χειροκίνητα βήματα, θα χρειαστεί να διαγράψετε με μη αυτόματο τρόπο τους δύο κάδους, το AmazonComprehendPII-Redact λειτουργία, το ComprehendRealTimeBlog ροή, η ομάδα καταγραφής για το ComprehendRealTimeBlog ροή και τυχόν ρόλους IAM που δημιουργήθηκαν.

Συμπέρασμα

Αυτή η ανάρτηση σάς έδειξε πώς να ενσωματώσετε την έκδοση PII στην αρχιτεκτονική ροής σχεδόν σε πραγματικό χρόνο και να μειώσετε τον χρόνο επεξεργασίας δεδομένων εκτελώντας επεξεργασία κατά την πτήση. Σε αυτό το σενάριο, παρέχετε τα ανακατασκευασμένα δεδομένα στους τελικούς χρήστες σας και ένας διαχειριστής της λίμνης δεδομένων ασφαλίζει τον ακατέργαστο κάδο για μελλοντική χρήση. Θα μπορούσατε επίσης να δημιουργήσετε πρόσθετη επεξεργασία με το Amazon Comprehend για να προσδιορίσετε τον τόνο ή το συναίσθημα, να προσδιορίσετε οντότητες μέσα στα δεδομένα και να ταξινομήσετε κάθε μήνυμα.

Παρέχαμε μεμονωμένα βήματα για κάθε υπηρεσία ως μέρος αυτής της ανάρτησης και συμπεριλάβαμε επίσης ένα πρότυπο CloudFormation που σας επιτρέπει να παρέχετε τους απαιτούμενους πόρους στον λογαριασμό σας. Αυτό το πρότυπο θα πρέπει να χρησιμοποιείται μόνο για απόδειξη της ιδέας ή σενάρια δοκιμής. Ανατρέξτε στους οδηγούς προγραμματιστών για Κατανοήστε το Amazon, Λάμδα, να Kinesis Data Firehose για τυχόν όρια υπηρεσιών.

Για να ξεκινήσετε με την αναγνώριση και τη σύνταξη PII, βλ Προσωπικά αναγνωρίσιμες πληροφορίες (PII). Με το παράδειγμα αρχιτεκτονικής σε αυτήν την ανάρτηση, θα μπορούσατε να ενσωματώσετε οποιοδήποτε από τα API του Amazon Comprehend με δεδομένα σχεδόν σε πραγματικό χρόνο χρησιμοποιώντας μετασχηματισμό δεδομένων Kinesis Data Firehose. Για να μάθετε περισσότερα σχετικά με το τι μπορείτε να δημιουργήσετε με τα δεδομένα σας σχεδόν σε πραγματικό χρόνο με το Kinesis Data Firehose, ανατρέξτε στο Οδηγός προγραμματιστή Amazon Kinesis Data Firehose. Αυτή η λύση είναι διαθέσιμη σε όλες τις Περιφέρειες AWS όπου είναι διαθέσιμα τα Amazon Comprehend και Kinesis Data Firehose.


Σχετικά με τους συγγραφείς

Διορθώστε ευαίσθητα δεδομένα από ροή δεδομένων σε σχεδόν πραγματικό χρόνο χρησιμοποιώντας το Amazon Comprehend και το Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται. Τζο Μορότι είναι αρχιτέκτονας λύσεων στην Amazon Web Services (AWS), βοηθώντας τους Enterprise πελάτες σε όλες τις μεσοδυτικές ΗΠΑ. Έχει αναλάβει ένα ευρύ φάσμα τεχνικών ρόλων και απολαμβάνει να δείχνει την τέχνη του πελάτη για το δυνατό. Στον ελεύθερο χρόνο του, του αρέσει να περνά ποιοτικό χρόνο με την οικογένειά του εξερευνώντας νέα μέρη και υπεραναλύοντας τις επιδόσεις της αθλητικής του ομάδας

Διορθώστε ευαίσθητα δεδομένα από ροή δεδομένων σε σχεδόν πραγματικό χρόνο χρησιμοποιώντας το Amazon Comprehend και το Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.Sriharsh Adari είναι Senior Solutions Architect στο Amazon Web Services (AWS), όπου βοηθά τους πελάτες να εργαστούν αντίστροφα από τα επιχειρηματικά αποτελέσματα για να αναπτύξουν καινοτόμες λύσεις στο AWS. Με τα χρόνια, έχει βοηθήσει πολλούς πελάτες σε μετασχηματισμούς πλατφόρμας δεδομένων σε κάθε κλάδο. Ο βασικός τομέας εξειδίκευσής του περιλαμβάνει τη στρατηγική τεχνολογίας, την ανάλυση δεδομένων και την επιστήμη δεδομένων. Στον ελεύθερο χρόνο του, του αρέσει να παίζει τένις, να παρακολουθεί τηλεοπτικές εκπομπές και να παίζει Tabla.

Σφραγίδα ώρας:

Περισσότερα από Μηχανική εκμάθηση AWS