অ্যামাজন ব্যবহার করে ক্ষতিকারক সামগ্রী ফ্ল্যাগ করুন বিষাক্ততা সনাক্তকরণ বোঝা | আমাজন ওয়েব সার্ভিসেস

অ্যামাজন ব্যবহার করে ক্ষতিকারক সামগ্রী ফ্ল্যাগ করুন বিষাক্ততা সনাক্তকরণ বোঝা | আমাজন ওয়েব সার্ভিসেস

অনলাইন সম্প্রদায়গুলি গেমিং, সোশ্যাল মিডিয়া, ইকমার্স, ডেটিং এবং ই-লার্নিং এর মতো শিল্পগুলিতে ব্যবহারকারীর ব্যস্ততাকে চালিত করছে৷ এই অনলাইন সম্প্রদায়ের সদস্যরা প্ল্যাটফর্মের মালিকদের একটি নিরাপদ এবং অন্তর্ভুক্তিমূলক পরিবেশ প্রদানের জন্য বিশ্বাস করে যেখানে তারা অবাধে সামগ্রী ব্যবহার করতে এবং অবদান রাখতে পারে। বিষয়বস্তু মডারেটরদের প্রায়ই ব্যবহারকারী-উত্পাদিত বিষয়বস্তু পর্যালোচনা করার জন্য নিযুক্ত করা হয় এবং এটি নিরাপদ এবং আপনার ব্যবহারের শর্তাবলীর সাথে সঙ্গতিপূর্ণ কিনা তা পরীক্ষা করে। যাইহোক, ক্রমাগত ক্রমবর্ধমান স্কেল, জটিলতা, এবং অনুপযুক্ত বিষয়বস্তুর বিভিন্নতা মানুষের মধ্যপন্থা কর্মপ্রবাহকে আনস্কেলযোগ্য এবং ব্যয়বহুল করে তোলে। ফলাফল হল দরিদ্র, ক্ষতিকারক, এবং অ-অন্তর্ভুক্ত সম্প্রদায় যা ব্যবহারকারীদের বিচ্ছিন্ন করে এবং সম্প্রদায় এবং ব্যবসার উপর নেতিবাচক প্রভাব ফেলে।

ব্যবহারকারী-উত্পাদিত সামগ্রীর পাশাপাশি, মেশিন-উত্পাদিত সামগ্রী সামগ্রী সংযম করার জন্য একটি নতুন চ্যালেঞ্জ নিয়ে এসেছে। এটি স্বয়ংক্রিয়ভাবে অত্যন্ত বাস্তবসম্মত সামগ্রী তৈরি করে যা অনুপযুক্ত বা স্কেলে ক্ষতিকারক হতে পারে। ব্যবহারকারীদের ক্ষতিকারক উপাদান থেকে রক্ষা করতে AI দ্বারা উত্পন্ন সামগ্রী স্বয়ংক্রিয়ভাবে নিয়ন্ত্রণ করার নতুন চ্যালেঞ্জের মুখোমুখি হচ্ছে শিল্প।

এই পোস্টে, আমরা বিষাক্ততা সনাক্তকরণের সাথে একটি নতুন বৈশিষ্ট্য উপস্থাপন করি অ্যামাজন সমঝোতা যা আপনাকে স্বয়ংক্রিয়ভাবে ব্যবহারকারী- বা মেশিন-জেনারেটেড টেক্সটে ক্ষতিকারক বিষয়বস্তু সনাক্ত করতে সাহায্য করে। এর মধ্যে রয়েছে প্লেইন টেক্সট, ছবি থেকে এক্সট্রাক্ট করা টেক্সট এবং অডিও বা ভিডিও কন্টেন্ট থেকে ট্রান্সক্রাইব করা টেক্সট।

Amazon Comprehend এর মাধ্যমে পাঠ্য বিষয়বস্তুতে বিষাক্ততা সনাক্ত করুন

Amazon Comprehend হল একটি প্রাকৃতিক-ভাষা প্রক্রিয়াকরণ (NLP) পরিষেবা যা পাঠ্যের মধ্যে মূল্যবান অন্তর্দৃষ্টি এবং সংযোগগুলি উন্মোচন করতে মেশিন লার্নিং (ML) ব্যবহার করে৷ এটি এমএল মডেলের একটি পরিসর অফার করে যা হয় প্রাক-প্রশিক্ষিত বা API ইন্টারফেসের মাধ্যমে কাস্টমাইজ করা যেতে পারে। Amazon Comprehend এখন পাঠ্যের মধ্যে বিষাক্ত বিষয়বস্তু সনাক্তকরণের জন্য একটি সহজবোধ্য, NLP-ভিত্তিক সমাধান প্রদান করে।

অ্যামাজন কম্প্রেহেন্ড টক্সিসিটি ডিটেকশন এপিআই টেক্সট বিষয়বস্তুতে একটি সামগ্রিক বিষাক্ততার স্কোর নির্ধারণ করে, 0-1 থেকে, এটি বিষাক্ত হওয়ার সম্ভাবনা নির্দেশ করে। এটি পাঠ্যকে নিম্নলিখিত সাতটি বিভাগে শ্রেণীবদ্ধ করে এবং প্রতিটির জন্য একটি আত্মবিশ্বাসের স্কোর প্রদান করে:

  • ঘৃণাবাচক কথা - এমন বক্তৃতা যা একটি পরিচয়ের ভিত্তিতে একজন ব্যক্তি বা একটি গোষ্ঠীর সমালোচনা, অপমান, নিন্দা বা অমানবিকতা করে, তা জাতি, জাতি, লিঙ্গ পরিচয়, ধর্ম, যৌন অভিমুখীতা, যোগ্যতা, জাতীয় উত্স বা অন্য কোনো পরিচয় গোষ্ঠীরই হোক না কেন।
  • গ্রাফিক - বক্তৃতা যা দৃশ্যত বর্ণনামূলক, বিশদ, এবং অপ্রীতিকরভাবে প্রাণবন্ত চিত্র ব্যবহার করে। এই ধরনের ভাষা প্রায়শই ভার্বস করা হয় যাতে প্রাপকের অপমান বা অস্বস্তি বা ক্ষতি বাড়ানো যায়।
  • HARASSMENT_OR_ABUSE - এমন বক্তৃতা যা বক্তা এবং শ্রোতার মধ্যে বিঘ্নকারী শক্তির গতিশীলতা আরোপ করে (উদ্দেশ্য নির্বিশেষে), প্রাপকের মনস্তাত্ত্বিক সুস্থতাকে প্রভাবিত করতে চায়, বা একজন ব্যক্তিকে উদ্দেশ্য করে।
  • যৌন – বক্তৃতা যা শরীরের অঙ্গ, শারীরিক বৈশিষ্ট্য বা লিঙ্গের প্রত্যক্ষ বা পরোক্ষ উল্লেখ ব্যবহার করে যৌন আগ্রহ, কার্যকলাপ বা উত্তেজনা নির্দেশ করে।
  • VIOLENCE_OR_THREAT - এমন বক্তৃতা যা হুমকির অন্তর্ভুক্ত যা কোনো ব্যক্তি বা গোষ্ঠীর প্রতি ব্যথা, আঘাত বা শত্রুতা সৃষ্টি করতে চায়।
  • অপমান - এমন বক্তৃতা যা অবমাননাকর, অবমাননাকর, উপহাস, অপমান, বা অবমাননাকর ভাষা অন্তর্ভুক্ত করে।
  • অশ্লীলতা – এমন বক্তৃতা যেখানে শব্দ, বাক্যাংশ বা সংক্ষিপ্ত শব্দ রয়েছে যা অশালীন, অশ্লীল বা আপত্তিকর।

আপনি এটি ব্যবহার করে সরাসরি কল করে বিষাক্ততা সনাক্তকরণ API অ্যাক্সেস করতে পারেন এডাব্লুএস কমান্ড লাইন ইন্টারফেস (AWS CLI) এবং AWS SDKs। Amazon Comprehend-এ বিষাক্ততা সনাক্তকরণ বর্তমানে ইংরেজি ভাষায় সমর্থিত।

ব্যবহারের ক্ষেত্রে

পাঠ্য সংযম সামাজিক মিডিয়া পোস্ট, অনলাইন চ্যাট বার্তা, ফোরাম আলোচনা, ওয়েবসাইট মন্তব্য এবং আরও অনেক কিছু সহ বিভিন্ন ফর্ম্যাট জুড়ে ব্যবহারকারী-উত্পাদিত সামগ্রী পরিচালনায় একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। অধিকন্তু, যে প্ল্যাটফর্মগুলি ভিডিও এবং অডিও সামগ্রী গ্রহণ করে তারা এই বৈশিষ্ট্যটি ব্যবহার করে প্রতিলিপিকৃত অডিও সামগ্রীকে পরিমিত করতে পারে।

জেনারেটিভ এআই এবং বড় ভাষা মডেলের (এলএলএম) উত্থান AI এর ক্ষেত্রে সর্বশেষ প্রবণতাকে প্রতিনিধিত্ব করে। ফলস্বরূপ, এলএলএম দ্বারা উত্পন্ন মধ্যপন্থী বিষয়বস্তুর প্রতিক্রিয়াশীল সমাধানের জন্য ক্রমবর্ধমান প্রয়োজন। আমাজন কম্প্রিহেন্ড টক্সিসিটি ডিটেকশন এপিআই এই প্রয়োজনের জন্য আদর্শভাবে উপযুক্ত।

অ্যামাজন কম্প্রিহেন্ড টক্সিসিটি ডিটেকশন এপিআই অনুরোধ

আপনি বিষাক্ততা সনাক্তকরণ API-এ 10টি পাঠ্য বিভাগ পর্যন্ত পাঠাতে পারেন, প্রতিটির আকার সীমা 1 KB। অনুরোধের প্রতিটি টেক্সট সেগমেন্ট স্বাধীনভাবে পরিচালনা করা হয়। নিম্নলিখিত উদাহরণে, আমরা নামের একটি JSON ফাইল তৈরি করি toxicity_api_input.json সংযম করার জন্য তিনটি নমুনা পাঠ্য বিভাগ সহ পাঠ্য সামগ্রী রয়েছে। উল্লেখ্য যে উদাহরণে, অপবিত্র শব্দগুলিকে XXXX হিসাবে মাস্ক করা হয়েছে৷

{ "TextSegments": [ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], "LanguageCode": "en"
}

আপনি পাঠ্য বিষয়বস্তু সম্বলিত পূর্ববর্তী JSON ফাইলটি ব্যবহার করে বিষাক্ততা সনাক্তকরণ API চালু করতে AWS CLI ব্যবহার করতে পারেন:

aws comprehend detect-toxic-content --cli-input-json file://toxicity_api_input.json

অ্যামাজন কম্প্রিহেন্ড টক্সিসিটি ডিটেকশন এপিআই প্রতিক্রিয়া

বিষাক্ততা সনাক্তকরণ API প্রতিক্রিয়া JSON আউটপুটে বিষাক্ততা বিশ্লেষণের ফলাফল অন্তর্ভুক্ত থাকবে ResultList ক্ষেত্র। ResultList টেক্সট সেগমেন্ট আইটেম তালিকা, এবং ক্রম প্রতিনিধিত্ব করে যে ক্রম টেক্সট সিকোয়েন্সগুলি API অনুরোধে গৃহীত হয়েছিল। বিষাক্ততা সনাক্তকরণের সামগ্রিক আত্মবিশ্বাসের স্কোর প্রতিনিধিত্ব করে (0-1 এর মধ্যে)। লেবেলগুলিতে বিষাক্ততার প্রকারের দ্বারা শ্রেণীবদ্ধ করা আত্মবিশ্বাসের স্কোর সহ বিষাক্ততার লেবেলের একটি তালিকা অন্তর্ভুক্ত রয়েছে।

নিম্নলিখিত কোডটি পূর্ববর্তী বিভাগে অনুরোধের উদাহরণের উপর ভিত্তি করে বিষাক্ততা সনাক্তকরণ API থেকে JSON প্রতিক্রিয়া দেখায়:

{ "ResultList": [ { "Toxicity": 0.009200000204145908, "Labels": [ { "Name": "PROFANITY", "Score": 0.0007999999797903001}, { "Name": "HATE_SPEECH", "Score": 0.0017999999690800905}, { "Name": "INSULT", "Score": 0.003000000026077032}, { "Name": "GRAPHIC", "Score": 0.0010000000474974513}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.0013000000035390258}, { "Name": "SEXUAL", "Score": 0.0017000000225380063}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.004999999888241291} ] }, { "Toxicity": 0.7358999848365784, "Labels": [ { "Name": "PROFANITY", "Score": 0.011900000274181366}, { "Name": "HATE_SPEECH", "Score": 0.019500000402331352}, { "Name": "INSULT", "Score": 0.0714000016450882}, { "Name": "GRAPHIC", "Score": 0.006099999882280827}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.018200000748038292}, { "Name": "SEXUAL", "Score": 0.0027000000700354576}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.8145999908447266} ] }, { "Toxicity": 0.9843000173568726, "Labels": [ { "Name": "PROFANITY", "Score": 0.9369999766349792 }, { "Name": "HATE_SPEECH", "Score": 0.30880001187324524 }, { "Name": "INSULT", "Score": 0.42100000381469727 }, { "Name": "GRAPHIC", "Score": 0.12630000710487366 }, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.25519999861717224 }, { "Name": "SEXUAL", "Score": 0.19169999659061432 }, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.19539999961853027 } ] } ]
}

পূর্ববর্তী JSON-এ, প্রথম টেক্সট সেগমেন্টকে কম বিষাক্ততার স্কোর সহ নিরাপদ বলে মনে করা হয়। যাইহোক, দ্বিতীয় এবং তৃতীয় পাঠ্য বিভাগগুলি যথাক্রমে 73% এবং 98% বিষাক্ততার স্কোর পেয়েছে। দ্বিতীয় বিভাগের জন্য, Amazon Comprehend এর জন্য একটি উচ্চ বিষাক্ততার স্কোর সনাক্ত করে VIOLENCE_OR_THREAT; তৃতীয় বিভাগের জন্য, এটি সনাক্ত করে PROFANITY একটি উচ্চ বিষাক্ততার স্কোর সহ।

পাইথন SDK ব্যবহার করে নমুনা অনুরোধ

নিচের কোড স্নিপেট দেখায় কিভাবে পাইথন SDK ব্যবহার করে টক্সিসিটি ডিটেকশন এপিআই চালু করতে হয়। এই কোডটি একই JSON রেসপন্স পায় যেমন AWS CLI কমান্ড পূর্বে প্রদর্শিত হয়েছিল।

import boto3 import base64
# Initialize a Comprehend boto3 client object
comprehend_client = session.client('comprehend') # Call comprehend Detect Toxic Content API with text segments
response = comprehend_client.detect_toxic_content( TextSegments=[ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], LanguageCode='en'
)

সারাংশ

এই পোস্টে, আমরা নতুন Amazon Comprehend Toxicity Detection API এর একটি ওভারভিউ প্রদান করেছি। আমরা আরও বর্ণনা করেছি যে আপনি কীভাবে API প্রতিক্রিয়া JSON পার্স করতে পারেন। আরো তথ্যের জন্য, পড়ুন API নথিটি বোঝা।

Amazon Comprehend টক্সিসিটি সনাক্তকরণ এখন সাধারণত চারটি অঞ্চলে পাওয়া যায়: us-east-1, us-west-2, eu-west-1, এবং ap-souteast-2।

বিষয়বস্তু সংযম সম্পর্কে আরও জানতে, পড়ুন AWS-এ বিষয়বস্তু নিয়ন্ত্রণের জন্য নির্দেশিকা. দিকে প্রথম পদক্ষেপ নিন AWS এর সাথে আপনার বিষয়বস্তু সংযম ক্রিয়াকলাপকে সুগম করা.


লেখক সম্পর্কে

লেখক- লানা ঝাংলানা ঝাং তিনি AWS WWSO AI সার্ভিসেস টিমের একজন সিনিয়র সলিউশন আর্কিটেক্ট, কন্টেন্ট মডারেশন, কম্পিউটার ভিশন, ন্যাচারাল ল্যাংগুয়েজ প্রসেসিং এবং জেনারেটিভ এআই-এর জন্য AI এবং ML-এ বিশেষজ্ঞ। তার দক্ষতার সাথে, তিনি AWS AI/ML সমাধান প্রচার করতে এবং সামাজিক মিডিয়া, গেমিং, ই-কমার্স, মিডিয়া, বিজ্ঞাপন ও বিপণন সহ বিভিন্ন শিল্প জুড়ে গ্রাহকদের তাদের ব্যবসায়িক সমাধানগুলিকে রূপান্তর করতে সহায়তা করার জন্য নিবেদিত৷

লেখক- রাবিশা এসকেরাবিশা এসকে একজন সিনিয়র প্রোডাক্ট ম্যানেজার, AI/ML-এর উপর ফোকাস সহ AWS-এর টেকনিক্যাল। বিভিন্ন ডোমেনে ডেটা অ্যানালিটিক্স এবং মেশিন লার্নিং-এ তার 10 বছরের বেশি অভিজ্ঞতা রয়েছে। তার অবসর সময়ে, তিনি পড়া, রান্নাঘরে পরীক্ষা এবং নতুন কফি শপ অন্বেষণ উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন হেলথলেক থেকে নন-পিএইচআই ডেটা বের করুন, জটিলতা হ্রাস করুন এবং অ্যামাজন অ্যাথেনা এবং অ্যামাজন সেজমেকার ক্যানভাসের সাথে ব্যয় দক্ষতা বাড়ান

উত্স নোড: 1808138
সময় স্ট্যাম্প: ফেব্রুয়ারী 28, 2023