Amazon Comprehend اور Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے سٹریمنگ ڈیٹا سے حساس ڈیٹا کو قریب قریب حقیقی وقت میں درست کریں۔ عمودی تلاش۔ عی

Amazon Comprehend اور Amazon Kinesis Data Firehose کا استعمال کرتے ہوئے سٹریمنگ ڈیٹا سے قریب قریب حقیقی وقت میں حساس ڈیٹا کو درست کریں۔

ڈیٹا اور بصیرت کی قریب قریب ریئل ٹائم ڈیلیوری کاروبار کو اپنے صارفین کی ضروریات کو تیزی سے جواب دینے کے قابل بناتی ہے۔ ریئل ٹائم ڈیٹا مختلف ذرائع سے آ سکتا ہے، بشمول سوشل میڈیا، IoT ڈیوائسز، انفراسٹرکچر مانیٹرنگ، کال سینٹر مانیٹرنگ، اور بہت کچھ۔ متعدد ذرائع سے ڈیٹا کی وسعت اور گہرائی کی وجہ سے، کاروبار اپنے صارفین کی رازداری کے تحفظ کے لیے حل تلاش کرتے ہیں اور حساس ڈیٹا کو اینڈ سسٹمز سے حاصل کیے جانے سے روکتے ہیں۔ آپ کو پہلے ذاتی طور پر قابل شناخت معلومات (PII) قواعد کے انجنوں پر انحصار کرنا پڑتا تھا جو غلط مثبت یا کھوئے ہوئے ڈیٹا کو نشان زد کر سکتے تھے، یا آپ کو اپنے سٹریمنگ ڈیٹا میں PII کی شناخت کرنے کے لیے کسٹم مشین لرننگ (ML) ماڈل بنانا اور برقرار رکھنا پڑتا تھا۔ آپ کو ان انجنوں یا ماڈلز کو سپورٹ کرنے کے لیے ضروری انفراسٹرکچر کو لاگو کرنے اور برقرار رکھنے کی بھی ضرورت ہے۔

اس عمل کو ہموار کرنے اور اخراجات کو کم کرنے میں مدد کے لیے، آپ استعمال کر سکتے ہیں۔ ایمیزون کی تعریف, ایک قدرتی لینگویج پروسیسنگ (NLP) سروس جو ML کا استعمال بصیرت اور تعلقات جیسے لوگوں، مقامات، جذبات اور موضوعات کو غیر ساختہ متن میں تلاش کرنے کے لیے کرتی ہے۔ اب آپ گاہک کی ای میلز، سپورٹ ٹکٹس، پروڈکٹ کے جائزے، سوشل میڈیا، اور مزید میں PII کا پتہ لگانے اور اسے درست کرنے کے لیے Amazon Comprehend ML صلاحیتوں کا استعمال کر سکتے ہیں۔ ایم ایل کے تجربے کی ضرورت نہیں ہے۔ مثال کے طور پر، آپ PII اداروں کا پتہ لگانے کے لیے سپورٹ ٹکٹس اور علمی مضامین کا تجزیہ کر سکتے ہیں اور دستاویزات کو انڈیکس کرنے سے پہلے متن کو دوبارہ ترتیب دے سکتے ہیں۔ اس کے بعد، دستاویزات PII اداروں سے پاک ہیں اور صارف ڈیٹا استعمال کر سکتے ہیں۔ PII اداروں میں ترمیم کرنے سے آپ کو اپنے گاہک کی رازداری کے تحفظ اور مقامی قوانین اور ضوابط کی تعمیل کرنے میں مدد ملتی ہے۔

اس پوسٹ میں، آپ اپنے اسٹریمنگ آرکیٹیکچرز میں Amazon Comprehend کو لاگو کرنے کا طریقہ سیکھتے ہیں تاکہ PII اداروں کو تقریباً حقیقی وقت میں استعمال کیا جا سکے۔ ایمیزون کائنیسس ڈیٹا فائر ہوز ساتھ او ڈبلیو ایس لامبڈا۔.

یہ پوسٹ منتخب فیلڈز سے ڈیٹا کو دوبارہ ترتیب دینے پر مرکوز ہے جو Kinesis Data Firehose کا استعمال کرتے ہوئے اسٹریمنگ آرکیٹیکچر میں داخل کیے جاتے ہیں، جہاں آپ اختتامی صارفین یا ڈاؤن اسٹریم ایپلی کیشنز کے استعمال کے لیے ڈیٹا کی اضافی مشتق کاپیاں بنانا، اسٹور کرنا اور برقرار رکھنا چاہتے ہیں۔ اگر آپ استعمال کر رہے ہیں۔ Amazon Kinesis ڈیٹا اسٹریمز یا PII ریڈیکشن سے باہر استعمال کے اضافی کیسز ہوں، رجوع کریں۔ Amazon Kinesis Data Analytics، Amazon Translate، اور Amazon Comprehend کے ساتھ SQL فنکشنز کا استعمال کرتے ہوئے سٹریمنگ ڈیٹا کا ترجمہ، ترمیم اور تجزیہ کریں۔جہاں ہم دکھاتے ہیں کہ آپ کس طرح استعمال کر سکتے ہیں۔ Amazon Kinesis Data Analytics سٹوڈیو کی طرف سے طاقت اپاچی زپیلین اور اپاچی فلنک سٹریمنگ ڈیٹا میں ٹیکسٹ فیلڈز کا انٹرایکٹو تجزیہ، ترجمہ اور ترمیم کرنے کے لیے۔

حل جائزہ

مندرجہ ذیل اعداد و شمار حقیقی وقت میں سٹریمنگ ڈیٹا کی PII ریڈیکشن کو انجام دینے کے لیے ایک نمونہ فن تعمیر کو دکھاتا ہے، استعمال کرتے ہوئے ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)، Kinesis Data Firehose ڈیٹا کی تبدیلی, ایمیزون کی تعریف، اور او ڈبلیو ایس لامبڈا۔. اس کے علاوہ، ہم استعمال کرتے ہیں AWS SDK برائے Python (Boto3) لیمبڈا کے افعال کے لیے۔ جیسا کہ خاکہ میں اشارہ کیا گیا ہے، S3 خام بالٹی میں غیر ترمیم شدہ ڈیٹا ہوتا ہے، اور S3 کی ترمیم شدہ بالٹی میں Amazon Comprehend استعمال کرنے کے بعد رییکٹڈ ڈیٹا ہوتا ہے۔ DetectPiiEntities لیمبڈا فنکشن کے اندر API۔

اخراجات شامل ہیں۔

Kinesis Data Firehose، Amazon S3، اور Lambda کے اخراجات کے علاوہ، یہ حل Amazon Comprehend سے استعمال کے اخراجات اٹھائے گا۔ آپ جو رقم ادا کرتے ہیں وہ ان ریکارڈز کی کل تعداد کا ایک عنصر ہے جس میں PII اور وہ حروف شامل ہیں جن پر Lambda فنکشن کے ذریعے کارروائی کی جاتی ہے۔ مزید معلومات کے لیے رجوع کریں۔ Amazon Kinesis Data Firehose کی قیمتوں کا تعین, ایمیزون پرائسنگ کو سمجھنا، اور AWS Lambda قیمتوں کا تعین.

ایک مثال کے طور پر، فرض کریں کہ آپ کے پاس 10,000 لاگز ریکارڈز ہیں، اور آپ جس کلیدی قدر سے PII کو تبدیل کرنا چاہتے ہیں وہ 500 حروف ہے۔ 10,000 لاگ ریکارڈز میں سے 50 کی شناخت PII پر مشتمل ہے۔ لاگت کی تفصیلات درج ذیل ہیں:

PII لاگت پر مشتمل ہے:

  • ہر کلیدی قدر کا سائز = 500 حروف (1 یونٹ = 100 حروف)
  • یونٹس کی تعداد (100 حروف) فی ریکارڈ (کم از کم 3 یونٹ ہے) = 5
  • کل یونٹس = 10,000 (ریکارڈز) x 5 (یونٹ فی ریکارڈ) x 1 (ایمیزون کمپری ہینڈ کی درخواستیں فی ریکارڈ) = 50,000
  • فی یونٹ قیمت = $0.000002
    • ContainsPiiEntities API = $0.1 [50,000 یونٹس x $0.000002] استعمال کرتے ہوئے PII کے ساتھ لاگ ریکارڈز کی شناخت کے لیے کل لاگت 

PII لاگت کو کم کریں:

  • کل اکائیاں جن میں PII = 50 (ریکارڈز) x 5 (یونٹس فی ریکارڈ) x 1 (ایمیزون کمپری ہینڈ درخواستیں فی ریکارڈ) = 250
  • فی یونٹ قیمت = $0.0001
    • DetectPiiEntities API کا استعمال کرتے ہوئے PII کے مقام کی شناخت کے لیے کل لاگت = [اکائیوں کی تعداد] x [فی یونٹ لاگت] = 250 x $0.0001 = $0.025

شناخت اور ترمیم کے لیے کل لاگت:

  • کل لاگت: $0.1 (توثیق اگر فیلڈ میں PII شامل ہے) + $0.025 (ان فیلڈز کو رییکٹ کریں جن میں PII شامل ہے) = $0.125

AWS CloudFormation کے ساتھ حل تعینات کریں۔

اس پوسٹ کے لیے، ہم ایک فراہم کرتے ہیں۔ AWS کلاؤڈ فارمیشن اسٹریمنگ ڈیٹا ریڈیکشن سانچے، جو دوبارہ قابل تعیناتیوں کو فعال کرنے کے لیے نفاذ کی مکمل تفصیلات فراہم کرتا ہے۔ تعیناتی کے بعد، یہ ٹیمپلیٹ دو S3 بالٹیاں بناتا ہے: ایک Amazon Kinesis Data Generator (KDG) سے حاصل کردہ خام نمونے کے ڈیٹا کو ذخیرہ کرنے کے لیے، اور ایک ترمیم شدہ ڈیٹا کو ذخیرہ کرنے کے لیے۔ مزید برآں، یہ Kinesis Data Firehose کی ترسیل کا سلسلہ بناتا ہے۔ DirectPUT بطور ان پٹ، اور ایک لیمبڈا فنکشن جو ایمیزون کمپری ہینڈ کو کال کرتا ہے۔ PiiEntities پر مشتمل ہے۔ اور ڈیٹیکٹ پی آئی اینٹیٹیز PII ڈیٹا کی شناخت اور اس میں ترمیم کرنے کے لیے API۔ لیمبڈا فنکشن ماحولیاتی متغیرات میں صارف کے ان پٹ پر انحصار کرتا ہے تاکہ یہ تعین کیا جا سکے کہ PII کے لیے کن کلیدی اقدار کا معائنہ کرنے کی ضرورت ہے۔

اس حل میں Lambda فنکشن میں پے لوڈ سائز 100 KB تک محدود ہے۔ اگر ایک پے لوڈ فراہم کیا جاتا ہے جہاں متن 100 KB سے زیادہ ہے، Lambda فنکشن اسے چھوڑ دے گا۔

حل کو تعینات کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. یو ایس ایسٹ (این ورجینیا) میں کلاؤڈ فارمیشن اسٹیک لانچ کریں۔ us-east-1:
    Amazon Comprehend اور Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے سٹریمنگ ڈیٹا سے حساس ڈیٹا کو قریب قریب حقیقی وقت میں درست کریں۔ عمودی تلاش۔ عی
  2. اسٹیک کا نام درج کریں، اور دوسرے پیرامیٹرز کو ان کے ڈیفالٹ پر چھوڑ دیں۔
  3. منتخب کریں میں تسلیم کرتا ہوں کہ AWS CloudFormation حسب ضرورت ناموں کے ساتھ IAM وسائل تخلیق کر سکتا ہے۔
  4. میں سے انتخاب کریں اسٹیک بنائیں.

وسائل کو دستی طور پر تعینات کریں۔

اگر آپ AWS CloudFormation استعمال کرنے کے بجائے دستی طور پر فن تعمیر کو ترجیح دیتے ہیں، تو اس سیکشن میں مراحل کو مکمل کریں۔

S3 بالٹیاں بنائیں

درج ذیل اقدامات کے ساتھ اپنی S3 بالٹیاں بنائیں:

  1. ایمیزون S3 کنسول پر، منتخب کریں۔ بالٹیاں۔ نیوی گیشن پین میں.
  2. میں سے انتخاب کریں بالٹی بنائیں.
  3. اپنے خام ڈیٹا کے لیے ایک بالٹی بنائیں اور ایک اپنے ترمیم شدہ ڈیٹا کے لیے۔
  4. ان بالٹیوں کے نام نوٹ کریں جو آپ نے ابھی بنائی ہیں۔

لیمبڈا فنکشن بنائیں

لیمبڈا فنکشن بنانے اور ان کو تعینات کرنے کے لیے درج ذیل مراحل کو مکمل کریں:

  1. لیمبڈا کنسول پر، منتخب کریں۔ فنکشن بنائیں.
  2. میں سے انتخاب کریں شروع سے مصنف.
  3. کے لئے فنکشن کا نام، داخل کریں AmazonComprehendPII-Redact.
  4. کے لئے رن ٹائممنتخب کریں ازگر 3.9.
  5. کے لئے آرکیٹیکچرمنتخب x86_64۔.
  6. کے لئے پھانسی کا کردارمنتخب لیمبڈا کی اجازت کے ساتھ ایک نیا کردار بنائیں.
  7. فنکشن بنانے کے بعد، درج ذیل کوڈ درج کریں:
    import json
    import boto3
    import os
    import base64
    import sys
    
    def lambda_handler(event, context):
        
        output = []
        
        for record in event['records']:
            
            # Gathers keys from enviroment variables and makes a list of desired keys to check for PII
            rawkeys = os.environ['keys']
            splitkeys = rawkeys.split(", ")
            print(splitkeys)
            #decode base64
            #Kinesis data is base64 encoded so decode here
            payloadraw=base64.b64decode(record["data"]).decode('utf-8')
            #Loads decoded payload into json
            payloadjsonraw = json.loads(payloadraw)
            
            # Creates Comprehend client
            comprehend_client = boto3.client('comprehend')
            
            
            # This codes handles the logic to check for keys, identify if PII exists, and redact PII if available. 
            for i in payloadjsonraw:
                # checks if the key found in the message matches a redact
                if i in splitkeys:
                    print("Redact key found, checking for PII")
                    payload = str(payloadjsonraw[i])
                    # check if payload size is less than 100KB
                    if sys.getsizeof(payload) < 99999:
                        print('Size is less than 100KB checking if value contains PII')
                        # Runs Comprehend ContainsPiiEntities API call to see if key value contains PII
                        pii_identified = comprehend_client.contains_pii_entities(Text=payload, LanguageCode='en')
                        
                        # If PII is not found, skip over key
                        if (pii_identified['Labels']) == []:
                            print('No PII found')
                        else:
                        # if PII is found, run through redaction logic
                            print('PII found redacting')
                            # Runs Comprehend DetectPiiEntities call to find exact location of PII
                            response = comprehend_client.detect_pii_entities(Text=payload, LanguageCode='en')
                            entities = response['Entities']
                            # creates redacted_payload which will be redacted
                            redacted_payload = payload
                            # runs through a loop that gathers necessary values from Comprehend API response and redacts values
                            for entity in entities:
                                char_offset_begin = entity['BeginOffset']
                                char_offset_end = entity['EndOffset']
                                redacted_payload = redacted_payload[:char_offset_begin] + '*'*(char_offset_end-char_offset_begin) + redacted_payload[char_offset_end:]
                            # replaces original value with redacted value
                            payloadjsonraw[i] = redacted_payload
                            print(str(payloadjsonraw[i]))
                    else:
                        print ('Size is more than 100KB, skipping inspection')
                else:
                    print("Key value not found in redaction list")
            
            redacteddata = json.dumps(payloadjsonraw)
            
            # adds inspected record to record
            output_record = {
                'recordId': record['recordId'],
                'result': 'Ok',
                'data' : base64.b64encode(redacteddata.encode('utf-8'))
            }
            output.append(output_record)
            print(output_record)
            
        print('Successfully processed {} records.'.format(len(event['records'])))
        
        return {'records': output}

  8. میں سے انتخاب کریں تعینات.
  9. نیویگیشن پین میں، منتخب کریں۔ ترتیب
  10. پر تشریف لے جائیں ماحولیاتی تغیرات.
  11. میں سے انتخاب کریں ترمیم کریں.
  12. کے لئے کلیدی، داخل کریں keys.
  13. کے لئے قدر, کوما اور اسپیس سے الگ کرکے وہ کلیدی اقدار درج کریں جن سے آپ PII کو تبدیل کرنا چاہتے ہیں۔ مثال کے طور پر درج کریں۔ Tweet1, Tweet2 اگر آپ اس پوسٹ کے اگلے حصے میں فراہم کردہ نمونہ ٹیسٹ ڈیٹا استعمال کر رہے ہیں۔
  14. میں سے انتخاب کریں محفوظ کریں.
  15. پر تشریف لے جائیں جنرل ترتیب.
  16. میں سے انتخاب کریں ترمیم کریں.
  17. کی قدر تبدیل کریں ٹائم آؤٹ 1 منٹ تک۔
  18. میں سے انتخاب کریں محفوظ کریں.
  19. پر تشریف لے جائیں اجازت.
  20. کے تحت کردار کا نام منتخب کریں۔ پھانسی کا کردار.
    آپ کو پر ری ڈائریکٹ کیا گیا ہے۔ AWS شناخت اور رسائی کا انتظام (IAM) کنسول۔
  21. کے لئے اجازتیں شامل کریں۔منتخب کریں پالیسیاں منسلک کریں۔.
  22. درج Comprehend سرچ بار میں جائیں اور پالیسی کا انتخاب کریں۔ ComprehendFullAccess.
  23. میں سے انتخاب کریں پالیسیاں منسلک کریں۔.

فائر ہوز ڈیلیوری اسٹریم بنائیں

اپنا فائر ہوز ڈیلیوری اسٹریم بنانے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. Kinesis Data Firehose کنسول پر، منتخب کریں۔ ترسیل کا سلسلہ بنائیں.
  2. کے لئے ماخذمنتخب براہ راست PUT.
  3. کے لئے منزل مقصودمنتخب ایمیزون S3.
  4. کے لئے ترسیل کے سلسلے کا نام، داخل کریں ComprehendRealTimeBlog.
  5. کے تحت AWS Lambda کے ساتھ سورس ریکارڈز کو تبدیل کریں۔منتخب فعال کردہ.
  6. کے لئے AWS لیمبڈا فنکشنآپ نے جو فنکشن بنایا ہے اس کے لیے ARN درج کریں، یا فنکشن کو براؤز کریں۔ AmazonComprehendPII-Redact.
  7. کے لئے بفر کا سائز، قدر کو 1 MB پر سیٹ کریں۔
  8. کے لئے بفر وقفہاسے 60 سیکنڈ کے لیے چھوڑ دیں۔
  9. کے تحت منزل کی ترتیبات، S3 بالٹی کو منتخب کریں جسے آپ نے ترمیم شدہ ڈیٹا کے لیے بنایا ہے۔
  10. کے تحت بیک اپ کی ترتیباتS3 بالٹی کو منتخب کریں جو آپ نے خام ریکارڈز کے لیے بنایا تھا۔
  11. کے تحت اجازت، یا تو IAM رول بنائیں یا اپ ڈیٹ کریں، یا مناسب اجازتوں کے ساتھ موجودہ کردار کا انتخاب کریں۔
  12. میں سے انتخاب کریں ترسیل کا سلسلہ بنائیں.

Kinesis ڈیٹا جنریٹر کے ساتھ سٹریمنگ ڈیٹا سلوشن کو تعینات کریں۔

آپ Kinesis ڈیٹا جنریٹر (KDG) کا استعمال کر سکتے ہیں تاکہ Kinesis Data Firehose میں نمونہ ڈیٹا داخل کر سکیں اور حل کی جانچ کریں۔ اس عمل کو آسان بنانے کے لیے، ہم ایک لیمبڈا فنکشن اور کلاؤڈ فارمیشن ٹیمپلیٹ فراہم کرتے ہیں ایمیزون کاگنیٹو صارف اور KDG استعمال کرنے کے لیے مناسب اجازتیں تفویض کریں۔

  1. پر Amazon Kinesis ڈیٹا جنریٹر صفحہمنتخب کریں CloudFormation کے ساتھ کوگنیٹو یوزر بنائیںآپ کو اپنا اسٹیک بنانے کے لیے AWS CloudFormation کنسول پر بھیج دیا گیا ہے۔
  2. اس صارف کے لیے صارف کا نام اور پاس ورڈ فراہم کریں جس سے آپ KDG میں لاگ ان ہوتے ہیں۔
  3. دیگر ترتیبات کو ان کے ڈیفالٹس پر چھوڑ دیں اور اپنا اسٹیک بنائیں۔
  4. پر نتائج ٹیب، KDG UI لنک منتخب کریں۔
  5. لاگ ان کرنے کے لیے اپنا صارف نام اور پاس ورڈ درج کریں۔

ٹیسٹ ریکارڈ بھیجیں اور Amazon S3 میں ترمیم کی توثیق کریں۔

حل کی جانچ کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

  1. KDG URL میں لاگ ان کریں جو آپ نے پچھلے مرحلے میں بنایا تھا۔
  2. وہ علاقہ منتخب کریں جہاں AWS CloudFormation اسٹیک تعینات کیا گیا تھا۔
  3. کے لئے سلسلہ/ڈیلیوری سلسلہ، آپ نے جو ڈیلیوری اسٹریم بنایا ہے اسے منتخب کریں (اگر آپ نے ٹیمپلیٹ استعمال کیا ہے تو اس کا فارمیٹ ہے۔ accountnumber-awscomprehend-blog).
  4. دیگر ترتیبات کو ان کے ڈیفالٹس پر چھوڑ دیں۔
  5. ریکارڈ ٹیمپلیٹ کے لیے، آپ اپنے ٹیسٹ خود بنا سکتے ہیں، یا درج ذیل ٹیمپلیٹ کا استعمال کر سکتے ہیں۔ اگر آپ ذیل میں فراہم کردہ نمونہ ڈیٹا کو جانچ کے لیے استعمال کر رہے ہیں، تو آپ کے پاس ماحولیاتی متغیرات کو اپ ڈیٹ کرنا چاہیے۔ AmazonComprehendPII-Redact لیمبڈا فنکشن ٹو Tweet1, Tweet2. اگر CloudFormation کے ذریعے تعینات کیا گیا ہے، تو ماحولیاتی متغیرات کو اپ ڈیٹ کریں۔ Tweet1, Tweet2 تخلیق کردہ لیمبڈا فنکشن کے اندر۔ نمونہ ٹیسٹ کا ڈیٹا ذیل میں ہے:
    {"User":"12345", "Tweet1":" Good morning, everybody. My name is Van Bokhorst Serdar, and today I feel like sharing a whole lot of personal information with you. Let's start with my Email address SerdarvanBokhorst@dayrep.com. My address is 2657 Koontz Lane, Los Angeles, CA. My phone number is 818-828-6231.", "Tweet2": "My Social security number is 548-95-6370. My Bank account number is 940517528812 and routing number 195991012. My credit card number is 5534816011668430, Expiration Date 6/1/2022, my C V V code is 121, and my pin 123456. Well, I think that's it. You know a whole lot about me. And I hope that Amazon comprehend is doing a good job at identifying PII entities so you can redact my personal information away from this streaming record. Let's check"}

  6. میں سے انتخاب کریں ڈیٹا بھیجیں۔، اور ریکارڈز کو اپنے سلسلے میں بھیجنے کے لیے چند سیکنڈ کی اجازت دیں۔
  7. چند سیکنڈ کے بعد، KDG جنریٹر کو روکیں اور ڈیلیور شدہ فائلوں کے لیے اپنی S3 بالٹیاں چیک کریں۔

خام S3 بالٹی میں خام ڈیٹا کی ایک مثال درج ذیل ہے:

{"User":"12345", "Tweet1":" Good morning, everybody. My name is Van Bokhorst Serdar, and today I feel like sharing a whole lot of personal information with you. Let's start with my Email address SerdarvanBokhorst@dayrep.com. My address is 2657 Koontz Lane, Los Angeles, CA. My phone number is 818-828-6231.", "Tweet2": "My Social security number is 548-95-6370. My Bank account number is 940517528812 and routing number 195991012. My credit card number is 5534816011668430, Expiration Date 6/1/2022, my C V V code is 121, and my pin 123456. Well, I think that's it. You know a whole lot about me. And I hope that Amazon comprehend is doing a good job at identifying PII entities so you can redact my personal information away from this streaming record. Let's check"}

ذیل میں ترمیم شدہ S3 بالٹی میں ترمیم شدہ ڈیٹا کی ایک مثال ہے۔

{"User":"12345", "Tweet1":"Good morning, everybody. My name is *******************, and today I feel like sharing a whole lot of personal information with you. Let's start with my Email address ****************************. My address is ********************************** My phone number is ************.", "Tweet"2: "My Social security number is ***********. My Bank account number is ************ and routing number *********. My credit card number is ****************, Expiration Date ********, my C V V code is ***, and my pin ******. Well, I think that's it. You know a whole lot about me. And I hope that Amazon comprehend is doing a good job at identifying PII entities so you can redact my personal information away from this streaming record. Let's check"}

حساس معلومات کو ترمیم شدہ پیغامات سے ہٹا دیا گیا ہے، یہ اعتماد فراہم کرتا ہے کہ آپ اس ڈیٹا کو اینڈ سسٹم کے ساتھ شیئر کر سکتے ہیں۔

صفائی

جب آپ اس حل کے ساتھ تجربہ مکمل کر لیں تو، اس مثال میں تعینات تمام وسائل کو حذف کرنے کے لیے AWS CloudFormation کنسول کا استعمال کر کے اپنے وسائل کو صاف کریں۔ اگر آپ دستی اقدامات پر عمل کرتے ہیں، تو آپ کو دستی طور پر دو بالٹیاں حذف کرنے کی ضرورت ہوگی۔ AmazonComprehendPII-Redact تقریب ، ComprehendRealTimeBlog سلسلہ، لاگ گروپ کے لیے ComprehendRealTimeBlog سلسلہ، اور کوئی بھی IAM کردار جو تخلیق کیے گئے تھے۔

نتیجہ

اس پوسٹ نے آپ کو دکھایا کہ کس طرح PII ریڈیکشن کو اپنے قریب کے ریئل ٹائم اسٹریمنگ آرکیٹیکچر میں ضم کرنا ہے اور فلائٹ میں ریڈیکشن کرکے ڈیٹا پروسیسنگ کے وقت کو کم کرنا ہے۔ اس منظر نامے میں، آپ اپنے اختتامی صارفین کو ترمیم شدہ ڈیٹا فراہم کرتے ہیں اور ڈیٹا لیک کا منتظم بعد میں استعمال کے لیے خام بالٹی کو محفوظ کرتا ہے۔ آپ Amazon Comprehend کے ساتھ ٹون یا جذبات کی شناخت، ڈیٹا کے اندر موجود اداروں کی شناخت، اور ہر پیغام کی درجہ بندی کرنے کے لیے اضافی پروسیسنگ بھی بنا سکتے ہیں۔

ہم نے اس پوسٹ کے حصے کے طور پر ہر سروس کے لیے انفرادی اقدامات فراہم کیے ہیں، اور ایک CloudFormation ٹیمپلیٹ بھی شامل کیا ہے جو آپ کو اپنے اکاؤنٹ میں مطلوبہ وسائل فراہم کرنے کی اجازت دیتا ہے۔ یہ سانچہ صرف تصور کے ثبوت یا جانچ کے منظرناموں کے لیے استعمال کیا جانا چاہیے۔ کے لیے ڈویلپر گائیڈز سے رجوع کریں۔ ایمیزون کی تعریف, لامڈا، اور Kinesis ڈیٹا فائر ہوز کسی بھی سروس کی حدود کے لیے۔

PII شناخت اور ترمیم کے ساتھ شروع کرنے کے لیے، دیکھیں ذاتی طور پر قابل شناخت معلومات (PII). اس پوسٹ میں فن تعمیر کی مثال کے ساتھ، آپ Kinesis Data Firehose ڈیٹا ٹرانسفارمیشن کا استعمال کرتے ہوئے کسی بھی Amazon Comprehend APIs کو قریب کے ریئل ٹائم ڈیٹا کے ساتھ ضم کر سکتے ہیں۔ اس بارے میں مزید جاننے کے لیے کہ آپ Kinesis Data Firehose کے ساتھ اپنے قریب کے ریئل ٹائم ڈیٹا کے ساتھ کیا بنا سکتے ہیں، دیکھیں Amazon Kinesis Data Firehose ڈویلپر گائیڈ. یہ حل تمام AWS علاقوں میں دستیاب ہے جہاں Amazon Comprehend اور Kinesis Data Firehose دستیاب ہیں۔


مصنفین کے بارے میں

Amazon Comprehend اور Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے سٹریمنگ ڈیٹا سے حساس ڈیٹا کو قریب قریب حقیقی وقت میں درست کریں۔ عمودی تلاش۔ عی جو موروٹی ایمیزون ویب سروسز (AWS) میں ایک حل آرکیٹیکٹ ہے، جو پورے امریکہ میں انٹرپرائز کے صارفین کی مدد کرتا ہے۔ اس نے تکنیکی کرداروں کی ایک وسیع رینج کا انعقاد کیا ہے اور کسٹمر کے ممکنہ فن کو دکھانے سے لطف اندوز ہوتا ہے۔ اپنے فارغ وقت میں، وہ اپنے خاندان کے ساتھ نئی جگہوں کی تلاش اور اپنی اسپورٹس ٹیم کی کارکردگی کا زیادہ تجزیہ کرنے میں معیاری وقت گزارنے میں لطف اندوز ہوتا ہے۔

Amazon Comprehend اور Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence کا استعمال کرتے ہوئے سٹریمنگ ڈیٹا سے حساس ڈیٹا کو قریب قریب حقیقی وقت میں درست کریں۔ عمودی تلاش۔ عیسری ہرش اڈاری Amazon Web Services (AWS) میں ایک سینئر سولیوشن آرکیٹیکٹ ہے، جہاں وہ صارفین کو AWS پر جدید حل تیار کرنے کے لیے کاروباری نتائج سے پیچھے کی طرف کام کرنے میں مدد کرتا ہے۔ کئی سالوں میں، اس نے صنعتی عمودی حصوں میں ڈیٹا پلیٹ فارم کی تبدیلیوں پر متعدد صارفین کی مدد کی ہے۔ اس کی مہارت کے بنیادی شعبے میں ٹیکنالوجی کی حکمت عملی، ڈیٹا تجزیات، اور ڈیٹا سائنس شامل ہیں۔ اپنے فارغ وقت میں، وہ ٹینس کھیلنا، ٹی وی شوز دیکھنے اور طبلہ بجانا پسند کرتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ