Amazon Comprehend এবং Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence ব্যবহার করে কাছাকাছি-রিয়েল টাইমে স্ট্রিমিং ডেটা থেকে সংবেদনশীল ডেটা রিড্যাক্ট করুন। উল্লম্ব অনুসন্ধান. আ.

Amazon Comprehend এবং Amazon Kinesis Data Firehose ব্যবহার করে কাছাকাছি-রিয়েল টাইমে স্ট্রিমিং ডেটা থেকে সংবেদনশীল ডেটা রিড্যাক্ট করুন

ডেটা এবং অন্তর্দৃষ্টির কাছাকাছি-রিয়েল-টাইম ডেলিভারি ব্যবসাগুলিকে দ্রুত তাদের গ্রাহকদের প্রয়োজনে সাড়া দিতে সক্ষম করে। রিয়েল-টাইম ডেটা সোশ্যাল মিডিয়া, আইওটি ডিভাইস, অবকাঠামো পর্যবেক্ষণ, কল সেন্টার মনিটরিং এবং আরও অনেক কিছু সহ বিভিন্ন উত্স থেকে আসতে পারে। একাধিক উৎস থেকে ডেটার প্রশস্ততা এবং গভীরতার কারণে, ব্যবসাগুলি তাদের গ্রাহকদের গোপনীয়তা রক্ষা করতে এবং শেষ সিস্টেম থেকে সংবেদনশীল ডেটা অ্যাক্সেস করা থেকে রক্ষা করার জন্য সমাধান খোঁজে। আপনাকে আগে ব্যক্তিগতভাবে শনাক্তকরণযোগ্য তথ্য (PII) নিয়ম ইঞ্জিনের উপর নির্ভর করতে হয়েছিল যা মিথ্যা ইতিবাচক ফ্ল্যাগ করতে পারে বা ডেটা মিস করতে পারে, অথবা আপনার স্ট্রিমিং ডেটাতে PII সনাক্ত করতে আপনাকে কাস্টম মেশিন লার্নিং (ML) মডেল তৈরি এবং বজায় রাখতে হয়েছিল। আপনাকে এই ইঞ্জিন বা মডেলগুলিকে সমর্থন করার জন্য প্রয়োজনীয় অবকাঠামো বাস্তবায়ন এবং বজায় রাখতে হবে।

এই প্রক্রিয়াটিকে প্রবাহিত করতে এবং খরচ কমাতে সাহায্য করতে, আপনি ব্যবহার করতে পারেন অ্যামাজন সমঝোতা, একটি প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) পরিষেবা যা অসংগঠিত পাঠ্যের মধ্যে মানুষ, স্থান, অনুভূতি এবং বিষয়গুলির মতো অন্তর্দৃষ্টি এবং সম্পর্কগুলি খুঁজে পেতে ML ব্যবহার করে৷ আপনি এখন গ্রাহকের ইমেল, সমর্থন টিকিট, পণ্য পর্যালোচনা, সোশ্যাল মিডিয়া এবং আরও অনেক কিছুতে PII সনাক্ত করতে এবং সংশোধন করতে Amazon Comprehend ML ক্ষমতাগুলি ব্যবহার করতে পারেন৷ কোন ML অভিজ্ঞতা প্রয়োজন. উদাহরণস্বরূপ, আপনি PII সত্তা সনাক্ত করতে সহায়তা টিকিট এবং জ্ঞান নিবন্ধগুলি বিশ্লেষণ করতে পারেন এবং নথিগুলি সূচী করার আগে পাঠ্যটি সংশোধন করতে পারেন৷ এর পরে, নথিগুলি PII সত্তা থেকে মুক্ত থাকে এবং ব্যবহারকারীরা ডেটা ব্যবহার করতে পারেন। PII সত্তা সংশোধন করা আপনাকে আপনার গ্রাহকের গোপনীয়তা রক্ষা করতে এবং স্থানীয় আইন ও প্রবিধান মেনে চলতে সহায়তা করে।

এই পোস্টে, আপনি কীভাবে আপনার স্ট্রিমিং আর্কিটেকচারে অ্যামাজন কম্প্রেহেন্ড প্রয়োগ করবেন তা শিখবেন যাতে ব্যবহার করে কাছাকাছি-রিয়েল টাইমে PII সত্তাগুলিকে সংশোধন করতে হয় আমাজন কিনেস ডেটা ফায়ারহোজ ose সঙ্গে এডাব্লুএস ল্যাম্বদা.

এই পোস্টটি কিনেসিস ডেটা ফায়ারহোস ব্যবহার করে একটি স্ট্রিমিং আর্কিটেকচারে প্রবেশ করানো নির্বাচিত ক্ষেত্রগুলি থেকে ডেটা সংশোধন করার উপর দৃষ্টি নিবদ্ধ করে, যেখানে আপনি শেষ-ব্যবহারকারী বা ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলির দ্বারা ব্যবহারের জন্য ডেটার অতিরিক্ত ডেরিভেটিভ কপি তৈরি করতে, সঞ্চয় করতে এবং বজায় রাখতে চান৷ যদি আপনি ব্যবহার করছেন অ্যামাজন কিনসিস ডেটা স্ট্রিম অথবা PII রিডাকশনের বাইরে অতিরিক্ত ব্যবহারের ক্ষেত্রে, পড়ুন Amazon Kinesis Data Analytics, Amazon Translate, এবং Amazon Comprehend এর সাথে SQL ফাংশন ব্যবহার করে স্ট্রিমিং ডেটা অনুবাদ, সংশোধন এবং বিশ্লেষণ করুন, যেখানে আমরা দেখাই কিভাবে আপনি ব্যবহার করতে পারেন অ্যামাজন কাইনেসিস ডেটা অ্যানালিটিক্স স্টুডিও দ্বারা চালিত অ্যাপাচি জেপেলিন এবং অ্যাপাচি ফ্লিঙ্ক স্ট্রিমিং ডেটাতে ইন্টারেক্টিভভাবে বিশ্লেষণ, অনুবাদ এবং পাঠ্য ক্ষেত্রগুলি সংশোধন করতে।

সমাধান ওভারভিউ

নিম্নলিখিত চিত্রটি ব্যবহার করে রিয়েল টাইমে স্ট্রিমিং ডেটার PII রিডাকশন সম্পাদন করার জন্য একটি উদাহরণ আর্কিটেকচার দেখায় আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), কাইনেসিস ডেটা ফায়ারহোস ডেটা রূপান্তর, অ্যামাজন সমঝোতা, এবং এডাব্লুএস ল্যাম্বদা. উপরন্তু, আমরা ব্যবহার Python (Boto3) এর জন্য AWS SDK Lambda ফাংশন জন্য. ডায়াগ্রামে নির্দেশিত হিসাবে, S3 কাঁচা বালতিতে অ-সংশোধিত ডেটা রয়েছে এবং S3 সংশোধন করা বালতিতে অ্যামাজন কম্প্রিহেন্ড ব্যবহার করার পরে সংশোধিত ডেটা রয়েছে DetectPiiEntities একটি ল্যাম্বডা ফাংশনের মধ্যে API।

খরচ জড়িত

Kinesis Data Firehose, Amazon S3, এবং Lambda খরচ ছাড়াও, এই সমাধানটি Amazon Comprehend থেকে ব্যবহারের খরচ বহন করবে। আপনি যে পরিমাণ অর্থ প্রদান করেন তা হল PII এবং ল্যাম্বডা ফাংশন দ্বারা প্রক্রিয়াকৃত অক্ষরগুলির মোট রেকর্ডের একটি ফ্যাক্টর৷ আরো তথ্যের জন্য, পড়ুন আমাজন কাইনেসিস ডেটা ফায়ারহোজ মূল্য, আমাজন কম্প্রিহেন্ড প্রাইসিং, এবং AWS Lambda মূল্য নির্ধারণ.

একটি উদাহরণ হিসাবে, ধরুন আপনার কাছে 10,000টি লগ রেকর্ড রয়েছে এবং আপনি যে মূল মান থেকে PII সংশোধন করতে চান তা হল 500টি অক্ষর৷ 10,000 লগ রেকর্ডের মধ্যে 50টি PII ধারণকারী হিসাবে চিহ্নিত করা হয়েছে। খরচের বিবরণ নিম্নরূপ:

PII খরচ রয়েছে:

  • প্রতিটি কী মানের আকার = 500 অক্ষর (1 ইউনিট = 100 অক্ষর)
  • রেকর্ড প্রতি ইউনিটের সংখ্যা (100 অক্ষর) (সর্বনিম্ন 3 ইউনিট) = 5
  • মোট ইউনিট = 10,000 (রেকর্ড) x 5 (প্রতি রেকর্ড প্রতি ইউনিট) x 1 (অ্যামাজন কম্প্রিহেন্ড অনুরোধ প্রতি রেকর্ড) = 50,000
  • প্রতি ইউনিট মূল্য = $0.000002
    • ContainsPiiEntities API = $0.1 [50,000 ইউনিট x $0.000002] ব্যবহার করে PII দিয়ে লগ রেকর্ড শনাক্ত করার জন্য মোট খরচ 

PII খরচ কমানো:

  • PII = 50 (রেকর্ড) x 5 (প্রতি রেকর্ড প্রতি ইউনিট) x 1 (অ্যামাজন কম্প্রিহেন্ড রিকোয়েস্ট প্রতি রেকর্ড) = 250 সমন্বিত মোট ইউনিট
  • প্রতি ইউনিট মূল্য = $0.0001
    • DetectPiiEntities API ব্যবহার করে PII এর অবস্থান শনাক্ত করার জন্য মোট খরচ = [ইউনিট সংখ্যা] x [প্রতি ইউনিট খরচ] = 250 x $0.0001 = $0.025

সনাক্তকরণ এবং সংশোধনের জন্য মোট খরচ:

  • মোট খরচ: $0.1 (ফিল্ডে PII থাকলে বৈধতা) + $0.025 (পিআইআই আছে এমন ফিল্ড রিডাক্ট করুন) = $0.125

AWS CloudFormation এর সাথে সমাধানটি স্থাপন করুন

এই পোস্টের জন্য, আমরা একটি প্রদান এডাব্লুএস ক্লাউডফর্মেশন স্ট্রিমিং ডেটা রিডাকশন টেমপ্লেট, যা পুনরাবৃত্তিযোগ্য স্থাপনা সক্ষম করতে বাস্তবায়নের সম্পূর্ণ বিবরণ প্রদান করে। স্থাপনের পরে, এই টেমপ্লেটটি দুটি S3 বালতি তৈরি করে: একটি Amazon Kinesis Data Generator (KDG) থেকে গৃহীত কাঁচা নমুনা ডেটা সংরক্ষণ করার জন্য এবং একটি সংশোধিত ডেটা সংরক্ষণ করার জন্য। অতিরিক্তভাবে, এটি একটি কাইনেসিস ডেটা ফায়ারহোজ ডেলিভারি স্ট্রিম তৈরি করে DirectPUT ইনপুট হিসাবে, এবং একটি ল্যাম্বডা ফাংশন যা অ্যামাজন কম্প্রেহেন্ডকে কল করে PiiEntities রয়েছে এবং ডিটেক্টপিআইএনটিটিস PII ডেটা সনাক্ত করতে এবং সংশোধন করতে API। ল্যাম্বডা ফাংশন PII-এর জন্য কী কী মানগুলি পরিদর্শন করতে হবে তা নির্ধারণ করতে পরিবেশ ভেরিয়েবলে ব্যবহারকারীর ইনপুটের উপর নির্ভর করে।

এই সমাধানের Lambda ফাংশনের পেলোডের আকার 100 KB পর্যন্ত সীমিত রয়েছে। যদি একটি পেলোড প্রদান করা হয় যেখানে পাঠ্য 100 KB-এর বেশি হয়, Lambda ফাংশন এটিকে এড়িয়ে যাবে।

সমাধান স্থাপন করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. ইউএস ইস্টে ক্লাউডফর্মেশন স্ট্যাক চালু করুন (এন. ভার্জিনিয়া) us-east-1:
    Amazon Comprehend এবং Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence ব্যবহার করে কাছাকাছি-রিয়েল টাইমে স্ট্রিমিং ডেটা থেকে সংবেদনশীল ডেটা রিড্যাক্ট করুন। উল্লম্ব অনুসন্ধান. আ.
  2. একটি স্ট্যাকের নাম লিখুন এবং অন্যান্য পরামিতিগুলি তাদের ডিফল্টে রেখে দিন
  3. নির্বাচন করা আমি স্বীকার করি যে AWS CloudFormation কাস্টম নাম সহ IAM সংস্থান তৈরি করতে পারে।
  4. বেছে নিন স্ট্যাক তৈরি করুন.

ম্যানুয়ালি সম্পদ স্থাপন

আপনি যদি AWS ক্লাউডফর্মেশন ব্যবহার করার পরিবর্তে ম্যানুয়ালি আর্কিটেকচার তৈরি করতে পছন্দ করেন, তাহলে এই বিভাগে পদক্ষেপগুলি সম্পূর্ণ করুন৷

S3 বালতি তৈরি করুন

নিম্নলিখিত পদক্ষেপগুলির সাথে আপনার S3 বালতি তৈরি করুন:

  1. Amazon S3 কনসোলে, নির্বাচন করুন buckets নেভিগেশন ফলকে।
  2. বেছে নিন বালতি তৈরি করুন.
  3. আপনার কাঁচা ডেটার জন্য একটি বালতি এবং আপনার সংশোধন করা ডেটার জন্য একটি বালতি তৈরি করুন৷
  4. আপনি এইমাত্র তৈরি করা বালতিগুলির নাম নোট করুন।

ল্যাম্বডা ফাংশন তৈরি করুন

Lambda ফাংশন তৈরি এবং স্থাপন করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. ল্যাম্বডা কনসোলে, নির্বাচন করুন ফাংশন তৈরি করুন.
  2. বেছে নিন গোড়া থেকে লেখক.
  3. জন্য ফাংশন নামপ্রবেশ করান AmazonComprehendPII-Redact.
  4. জন্য রানটাইমনির্বাচন পাইথন 3.9.
  5. জন্য স্থাপত্য, নির্বাচন করুন , x86_64.
  6. জন্য কার্যকর করার ভূমিকা, নির্বাচন করুন Lambda অনুমতির সাথে একটি নতুন ভূমিকা তৈরি করুন.
  7. আপনি ফাংশন তৈরি করার পরে, নিম্নলিখিত কোড লিখুন:
    import json
    import boto3
    import os
    import base64
    import sys
    
    def lambda_handler(event, context):
        
        output = []
        
        for record in event['records']:
            
            # Gathers keys from enviroment variables and makes a list of desired keys to check for PII
            rawkeys = os.environ['keys']
            splitkeys = rawkeys.split(", ")
            print(splitkeys)
            #decode base64
            #Kinesis data is base64 encoded so decode here
            payloadraw=base64.b64decode(record["data"]).decode('utf-8')
            #Loads decoded payload into json
            payloadjsonraw = json.loads(payloadraw)
            
            # Creates Comprehend client
            comprehend_client = boto3.client('comprehend')
            
            
            # This codes handles the logic to check for keys, identify if PII exists, and redact PII if available. 
            for i in payloadjsonraw:
                # checks if the key found in the message matches a redact
                if i in splitkeys:
                    print("Redact key found, checking for PII")
                    payload = str(payloadjsonraw[i])
                    # check if payload size is less than 100KB
                    if sys.getsizeof(payload) < 99999:
                        print('Size is less than 100KB checking if value contains PII')
                        # Runs Comprehend ContainsPiiEntities API call to see if key value contains PII
                        pii_identified = comprehend_client.contains_pii_entities(Text=payload, LanguageCode='en')
                        
                        # If PII is not found, skip over key
                        if (pii_identified['Labels']) == []:
                            print('No PII found')
                        else:
                        # if PII is found, run through redaction logic
                            print('PII found redacting')
                            # Runs Comprehend DetectPiiEntities call to find exact location of PII
                            response = comprehend_client.detect_pii_entities(Text=payload, LanguageCode='en')
                            entities = response['Entities']
                            # creates redacted_payload which will be redacted
                            redacted_payload = payload
                            # runs through a loop that gathers necessary values from Comprehend API response and redacts values
                            for entity in entities:
                                char_offset_begin = entity['BeginOffset']
                                char_offset_end = entity['EndOffset']
                                redacted_payload = redacted_payload[:char_offset_begin] + '*'*(char_offset_end-char_offset_begin) + redacted_payload[char_offset_end:]
                            # replaces original value with redacted value
                            payloadjsonraw[i] = redacted_payload
                            print(str(payloadjsonraw[i]))
                    else:
                        print ('Size is more than 100KB, skipping inspection')
                else:
                    print("Key value not found in redaction list")
            
            redacteddata = json.dumps(payloadjsonraw)
            
            # adds inspected record to record
            output_record = {
                'recordId': record['recordId'],
                'result': 'Ok',
                'data' : base64.b64encode(redacteddata.encode('utf-8'))
            }
            output.append(output_record)
            print(output_record)
            
        print('Successfully processed {} records.'.format(len(event['records'])))
        
        return {'records': output}

  8. বেছে নিন স্থাপন করুন.
  9. নেভিগেশন ফলকে, নির্বাচন করুন কনফিগারেশন.
  10. নেভিগেট করুন পরিবেশ পরিবর্তনশীল.
  11. বেছে নিন সম্পাদন করা.
  12. জন্য চাবিপ্রবেশ করান keys.
  13. জন্য মূল্য, একটি কমা এবং স্থান দ্বারা পৃথক করা মূল মানগুলি লিখুন যেগুলি থেকে আপনি PII সংশোধন করতে চান৷ উদাহরণস্বরূপ, লিখুন Tweet1, Tweet2 আপনি যদি এই পোস্টের পরবর্তী বিভাগে দেওয়া নমুনা পরীক্ষার ডেটা ব্যবহার করেন।
  14. বেছে নিন সংরক্ষণ করুন.
  15. নেভিগেট করুন সাধারণ কনফিগারেশন.
  16. বেছে নিন সম্পাদন করা.
  17. এর মান পরিবর্তন করুন সময় শেষ 1 মিনিট থেকে
  18. বেছে নিন সংরক্ষণ করুন.
  19. নেভিগেট করুন অনুমতিসমূহ.
  20. অধীনে ভূমিকার নাম নির্বাচন করুন মৃত্যুদন্ড কার্যকর করার ভূমিকা.
    আপনি পুনঃনির্দেশিত করছি এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (IAM) কনসোল।
  21. জন্য অনুমতি যোগ করুননির্বাচন নীতিগুলি সংযুক্ত করুন.
  22. প্রবেশ করান Comprehend অনুসন্ধান বারে প্রবেশ করুন এবং নীতি নির্বাচন করুন ComprehendFullAccess.
  23. বেছে নিন নীতিগুলি সংযুক্ত করুন.

ফায়ারহোজ ডেলিভারি স্ট্রীম তৈরি করুন

আপনার ফায়ারহোজ ডেলিভারি স্ট্রিম তৈরি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. Kinesis Data Firehose কনসোলে, নির্বাচন করুন ডেলিভারি স্ট্রিম তৈরি করুন.
  2. জন্য উৎস, নির্বাচন করুন সরাসরি PUT.
  3. জন্য গন্তব্য, নির্বাচন করুন আমাজন S3.
  4. জন্য ডেলিভারি স্ট্রিম নামপ্রবেশ করান ComprehendRealTimeBlog.
  5. অধীনে AWS Lambda-এর সাথে উৎসের রেকর্ডগুলি রূপান্তর করুন, নির্বাচন করুন সক্ষম করা.
  6. জন্য AWS Lambda ফাংশন, আপনার তৈরি ফাংশনের জন্য ARN লিখুন, অথবা ফাংশনে ব্রাউজ করুন AmazonComprehendPII-Redact.
  7. জন্য বাফারের আকার, মান সেট করুন 1 MB।
  8. জন্য বাফার ব্যবধান, 60 সেকেন্ড হিসাবে ছেড়ে দিন।
  9. অধীনে গন্তব্য সেটিংস, সংশোধিত ডেটার জন্য আপনার তৈরি করা S3 বালতি নির্বাচন করুন।
  10. অধীনে ব্যাকআপ সেটিংস, আপনি কাঁচা রেকর্ডের জন্য তৈরি S3 বালতি নির্বাচন করুন।
  11. অধীনে অনুমতি, হয় একটি IAM ভূমিকা তৈরি করুন বা আপডেট করুন, অথবা যথাযথ অনুমতি সহ একটি বিদ্যমান ভূমিকা চয়ন করুন৷
  12. বেছে নিন ডেলিভারি স্ট্রিম তৈরি করুন.

কাইনেসিস ডেটা জেনারেটরের সাথে স্ট্রিমিং ডেটা সমাধান স্থাপন করুন

আপনি Kinesis ডেটা ফায়ারহোসে নমুনা ডেটা গ্রহণ করতে এবং সমাধান পরীক্ষা করতে কাইনেসিস ডেটা জেনারেটর (KDG) ব্যবহার করতে পারেন। এই প্রক্রিয়াটিকে সহজ করার জন্য, আমরা একটি ল্যাম্বডা ফাংশন এবং ক্লাউডফর্মেশন টেমপ্লেট প্রদান করি অ্যামাজন কগনিটো ব্যবহারকারী এবং কেডিজি ব্যবহার করার জন্য উপযুক্ত অনুমতি বরাদ্দ করুন।

  1. উপরে আমাজন কাইনেসিস ডেটা জেনারেটর পৃষ্ঠানির্বাচন ক্লাউডফর্মেশনের সাথে একটি কগনিটো ব্যবহারকারী তৈরি করুন.আপনার স্ট্যাক তৈরি করতে আপনাকে AWS CloudFormation কনসোলে পুনঃনির্দেশিত করা হয়েছে।
  2. আপনি যে ব্যবহারকারীর সাথে KDG-তে লগ ইন করবেন তার জন্য একটি ব্যবহারকারীর নাম এবং পাসওয়ার্ড দিন।
  3. অন্যান্য সেটিংস তাদের ডিফল্টে ছেড়ে দিন এবং আপনার স্ট্যাক তৈরি করুন।
  4. উপরে আউটপুট ট্যাবে, KDG UI লিঙ্ক বেছে নিন।
  5. লগ ইন করার জন্য আপনার ব্যবহৃত নাম এবং পাসওয়ার্ডটি দিন.

Amazon S3-তে পরীক্ষার রেকর্ড পাঠান এবং রিডাকশন যাচাই করুন

সমাধান পরীক্ষা করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. আগের ধাপে আপনার তৈরি করা KDG URL-এ লগ ইন করুন।
  2. যে অঞ্চলে AWS CloudFormation স্ট্যাক স্থাপন করা হয়েছিল সেটি বেছে নিন।
  3. জন্য স্ট্রীম/ডেলিভারি স্ট্রীম, আপনার তৈরি করা ডেলিভারি স্ট্রীম বেছে নিন (যদি আপনি টেমপ্লেটটি ব্যবহার করেন, তবে এটির বিন্যাস রয়েছে accountnumber-awscomprehend-blog).
  4. অন্যান্য সেটিংস তাদের ডিফল্টে ছেড়ে দিন।
  5. রেকর্ড টেমপ্লেটের জন্য, আপনি নিজের পরীক্ষা তৈরি করতে পারেন, বা নিম্নলিখিত টেমপ্লেটটি ব্যবহার করতে পারেন৷ আপনি যদি পরীক্ষার জন্য নীচের প্রদত্ত নমুনা ডেটা ব্যবহার করেন, তাহলে আপনার পরিবেশের পরিবর্তনশীল আপডেট থাকা উচিত AmazonComprehendPII-Redact Lambda ফাংশন Tweet1, Tweet2. ক্লাউডফর্মেশনের মাধ্যমে স্থাপন করা হলে, পরিবেশের ভেরিয়েবলগুলি এতে আপডেট করুন Tweet1, Tweet2 তৈরি ল্যাম্বডা ফাংশনের মধ্যে। নমুনা পরীক্ষার তথ্য নিম্নরূপ:
    {"User":"12345", "Tweet1":" Good morning, everybody. My name is Van Bokhorst Serdar, and today I feel like sharing a whole lot of personal information with you. Let's start with my Email address SerdarvanBokhorst@dayrep.com. My address is 2657 Koontz Lane, Los Angeles, CA. My phone number is 818-828-6231.", "Tweet2": "My Social security number is 548-95-6370. My Bank account number is 940517528812 and routing number 195991012. My credit card number is 5534816011668430, Expiration Date 6/1/2022, my C V V code is 121, and my pin 123456. Well, I think that's it. You know a whole lot about me. And I hope that Amazon comprehend is doing a good job at identifying PII entities so you can redact my personal information away from this streaming record. Let's check"}

  6. বেছে নিন তথ্য পাঠান, এবং আপনার স্ট্রীমে রেকর্ড পাঠানোর জন্য কয়েক সেকেন্ডের অনুমতি দিন।
  7. কয়েক সেকেন্ড পরে, KDG জেনারেটর বন্ধ করুন এবং বিতরণ করা ফাইলগুলির জন্য আপনার S3 বালতি পরীক্ষা করুন।

নিম্নে কাঁচা S3 বালতিতে থাকা কাঁচা ডেটার উদাহরণ দেওয়া হল:

{"User":"12345", "Tweet1":" Good morning, everybody. My name is Van Bokhorst Serdar, and today I feel like sharing a whole lot of personal information with you. Let's start with my Email address SerdarvanBokhorst@dayrep.com. My address is 2657 Koontz Lane, Los Angeles, CA. My phone number is 818-828-6231.", "Tweet2": "My Social security number is 548-95-6370. My Bank account number is 940517528812 and routing number 195991012. My credit card number is 5534816011668430, Expiration Date 6/1/2022, my C V V code is 121, and my pin 123456. Well, I think that's it. You know a whole lot about me. And I hope that Amazon comprehend is doing a good job at identifying PII entities so you can redact my personal information away from this streaming record. Let's check"}

নিম্নে সংশোধিত S3 বালতিতে সংশোধিত ডেটার একটি উদাহরণ:

{"User":"12345", "Tweet1":"Good morning, everybody. My name is *******************, and today I feel like sharing a whole lot of personal information with you. Let's start with my Email address ****************************. My address is ********************************** My phone number is ************.", "Tweet"2: "My Social security number is ***********. My Bank account number is ************ and routing number *********. My credit card number is ****************, Expiration Date ********, my C V V code is ***, and my pin ******. Well, I think that's it. You know a whole lot about me. And I hope that Amazon comprehend is doing a good job at identifying PII entities so you can redact my personal information away from this streaming record. Let's check"}

সংবেদনশীল তথ্য সংশোধিত বার্তাগুলি থেকে সরানো হয়েছে, এই আস্থা প্রদান করে যে আপনি শেষ সিস্টেমের সাথে এই ডেটা ভাগ করতে পারেন৷

পরিষ্কার কর

আপনি যখন এই সমাধানটির সাথে পরীক্ষা করা শেষ করেন, তখন এই উদাহরণে স্থাপন করা সমস্ত সংস্থান মুছে ফেলতে AWS CloudFormation কনসোল ব্যবহার করে আপনার সংস্থানগুলি পরিষ্কার করুন৷ আপনি যদি ম্যানুয়াল পদক্ষেপগুলি অনুসরণ করেন তবে আপনাকে ম্যানুয়ালি দুটি বালতি মুছে ফেলতে হবে, AmazonComprehendPII-Redact ফাংশন, ComprehendRealTimeBlog স্ট্রীম, জন্য লগ গ্রুপ ComprehendRealTimeBlog স্ট্রীম, এবং যে কোন IAM ভূমিকা তৈরি করা হয়েছে।

উপসংহার

এই পোস্টটি আপনাকে দেখিয়েছে কিভাবে আপনার কাছাকাছি-রিয়েল-টাইম স্ট্রিমিং আর্কিটেকচারে PII রিডাকশনকে একীভূত করতে হয় এবং ফ্লাইটে রিডাকশন সম্পাদন করে ডেটা প্রক্রিয়াকরণের সময় কমাতে হয়। এই পরিস্থিতিতে, আপনি আপনার শেষ-ব্যবহারকারীকে সংশোধিত ডেটা প্রদান করেন এবং একটি ডেটা লেক অ্যাডমিনিস্ট্রেটর পরবর্তী ব্যবহারের জন্য কাঁচা বালতি সুরক্ষিত করে। আপনি টোন বা অনুভূতি সনাক্ত করতে, ডেটার মধ্যে সত্তা সনাক্ত করতে এবং প্রতিটি বার্তাকে শ্রেণিবদ্ধ করতে অ্যামাজন কম্প্রিহেন্ডের সাথে অতিরিক্ত প্রক্রিয়াকরণও তৈরি করতে পারেন।

আমরা এই পোস্টের অংশ হিসাবে প্রতিটি পরিষেবার জন্য পৃথক পদক্ষেপ প্রদান করেছি, এবং একটি CloudFormation টেমপ্লেটও অন্তর্ভুক্ত করেছি যা আপনাকে আপনার অ্যাকাউন্টে প্রয়োজনীয় সংস্থানগুলি সরবরাহ করতে দেয়৷ এই টেমপ্লেটটি শুধুমাত্র ধারণার প্রমাণ বা পরীক্ষার পরিস্থিতির জন্য ব্যবহার করা উচিত। এর জন্য বিকাশকারী নির্দেশিকা পড়ুন অ্যামাজন সমঝোতা, ল্যামডা, এবং কাইনেসিস ডেটা ফায়ারহোস যেকোনো পরিষেবার সীমার জন্য।

PII শনাক্তকরণ এবং সংশোধনের সাথে শুরু করতে, দেখুন ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য (PII). এই পোস্টে আর্কিটেকচারের উদাহরণ দিয়ে, আপনি কাইনেসিস ডেটা ফায়ারহোস ডেটা ট্রান্সফরমেশন ব্যবহার করে কাছাকাছি-রিয়েল-টাইম ডেটার সাথে অ্যামাজন কম্প্রেহেন্ড এপিআইগুলির যেকোনো একটিকে একীভূত করতে পারেন। কাইনেসিস ডেটা ফায়ারহোসের সাথে আপনার কাছাকাছি-রিয়েল-টাইম ডেটা দিয়ে আপনি কী তৈরি করতে পারেন সে সম্পর্কে আরও জানতে, দেখুন আমাজন কাইনেসিস ডেটা ফায়ারহোজ ডেভেলপার গাইড. এই সমাধানটি সমস্ত AWS অঞ্চলে উপলব্ধ যেখানে Amazon Comprehend এবং Kinesis Data Firehose পাওয়া যায়।


লেখক সম্পর্কে

Amazon Comprehend এবং Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence ব্যবহার করে কাছাকাছি-রিয়েল টাইমে স্ট্রিমিং ডেটা থেকে সংবেদনশীল ডেটা রিড্যাক্ট করুন। উল্লম্ব অনুসন্ধান. আ. জো মরোত্তি Amazon Web Services (AWS) এর একজন সলিউশন আর্কিটেক্ট, মিডওয়েস্ট ইউএস জুড়ে এন্টারপ্রাইজ গ্রাহকদের সাহায্য করে। তিনি বিস্তৃত প্রযুক্তিগত ভূমিকা পালন করেছেন এবং গ্রাহকের সম্ভাব্য শিল্প দেখানো উপভোগ করেন। তার অবসর সময়ে, তিনি তার পরিবারের সাথে নতুন জায়গা অন্বেষণ এবং তার ক্রীড়া দলের পারফরম্যান্সের অত্যধিক বিশ্লেষণ করে তার পরিবারের সাথে মানসম্পন্ন সময় কাটাতে উপভোগ করেন

Amazon Comprehend এবং Amazon Kinesis Data Firehose PlatoBlockchain Data Intelligence ব্যবহার করে কাছাকাছি-রিয়েল টাইমে স্ট্রিমিং ডেটা থেকে সংবেদনশীল ডেটা রিড্যাক্ট করুন। উল্লম্ব অনুসন্ধান. আ.শ্রীহর্ষ আদরি আমাজন ওয়েব সার্ভিসেস (AWS) এর একজন সিনিয়র সলিউশন আর্কিটেক্ট, যেখানে তিনি গ্রাহকদের AWS-এ উদ্ভাবনী সমাধান বিকাশ করতে ব্যবসায়িক ফলাফল থেকে পিছনের দিকে কাজ করতে সহায়তা করেন। বছরের পর বছর ধরে, তিনি ইন্ডাস্ট্রির উল্লম্ব জুড়ে ডেটা প্ল্যাটফর্মের রূপান্তরে একাধিক গ্রাহকদের সহায়তা করেছেন। তার দক্ষতার মূল ক্ষেত্র অন্তর্ভুক্ত প্রযুক্তি কৌশল, ডেটা অ্যানালিটিক্স এবং ডেটা সায়েন্স। তার অবসর সময়ে, তিনি টেনিস খেলা, টিভি শো দেখতে এবং তবলা বাজানো উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

Amazon SageMaker অসিঙ্ক্রোনাস এন্ডপয়েন্টের সাথে Amazon SageMaker JumpStart ফাউন্ডেশন মডেলের স্থাপনার খরচ অপ্টিমাইজ করুন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1885621
সময় স্ট্যাম্প: সেপ্টেম্বর 5, 2023

একটি কাস্টম লেন্স দিয়ে ভাল-আর্কিটেক্টেড IDP সমাধান তৈরি করুন – পার্ট 4: পারফরম্যান্স দক্ষতা | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1917726
সময় স্ট্যাম্প: নভেম্বর 22, 2023

অ্যামাজন সেজমেকার ক্যানভাসের সাথে কোনও কোড এমএল মডেল তৈরি করার সময় সাধারণ ডেটা সমস্যাগুলি সনাক্ত করা এবং এড়ানো

উত্স নোড: 1753344
সময় স্ট্যাম্প: নভেম্বর 10, 2022

Amazon SageMaker Data Wrangler-এ Amazon Athena ডেটা উৎসের জন্য একটি কাস্টম অ্যামাজন S3 কোয়েরি আউটপুট অবস্থান এবং ডেটা ধরে রাখার নীতি কনফিগার করুন

উত্স নোড: 1673951
সময় স্ট্যাম্প: সেপ্টেম্বর 20, 2022