अमेज़ॅन कॉम्प्रिहेंशन टॉक्सिसिटी डिटेक्शन | का उपयोग करके हानिकारक सामग्री को चिह्नित करें अमेज़न वेब सेवाएँ

अमेज़ॅन कॉम्प्रिहेंशन टॉक्सिसिटी डिटेक्शन | का उपयोग करके हानिकारक सामग्री को चिह्नित करें अमेज़न वेब सेवाएँ

ऑनलाइन समुदाय गेमिंग, सोशल मीडिया, ईकॉमर्स, डेटिंग और ई-लर्निंग जैसे उद्योगों में उपयोगकर्ता जुड़ाव बढ़ा रहे हैं। इन ऑनलाइन समुदायों के सदस्य एक सुरक्षित और समावेशी वातावरण प्रदान करने के लिए प्लेटफ़ॉर्म मालिकों पर भरोसा करते हैं जहां वे स्वतंत्र रूप से सामग्री का उपभोग कर सकते हैं और योगदान कर सकते हैं। सामग्री मॉडरेटर को अक्सर उपयोगकर्ता-जनित सामग्री की समीक्षा करने और यह जांचने के लिए नियुक्त किया जाता है कि यह सुरक्षित है और आपके उपयोग की शर्तों के अनुरूप है। हालाँकि, अनुपयुक्त सामग्री का लगातार बढ़ता पैमाना, जटिलता और विविधता मानव मॉडरेशन वर्कफ़्लो को अप्राप्य और महंगा बना देती है। परिणाम खराब, हानिकारक और गैर-समावेशी समुदाय हैं जो उपयोगकर्ताओं को अलग कर देते हैं और समुदाय और व्यवसाय पर नकारात्मक प्रभाव डालते हैं।

उपयोगकर्ता-जनित सामग्री के साथ-साथ, मशीन-जनित सामग्री सामग्री मॉडरेशन के लिए एक नई चुनौती लेकर आई है। यह स्वचालित रूप से अत्यधिक यथार्थवादी सामग्री बनाता है जो बड़े पैमाने पर अनुपयुक्त या हानिकारक हो सकती है। उद्योग उपयोगकर्ताओं को हानिकारक सामग्री से बचाने के लिए एआई द्वारा उत्पन्न सामग्री को स्वचालित रूप से मॉडरेट करने की नई चुनौती का सामना कर रहा है।

इस पोस्ट में, हम विषाक्तता का पता लगाने की एक नई सुविधा पेश करते हैं Amazon Comprehend जो आपको उपयोगकर्ता या मशीन-जनरेटेड टेक्स्ट में हानिकारक सामग्री का स्वचालित रूप से पता लगाने में मदद करता है। इसमें सादा पाठ, छवियों से निकाला गया पाठ और ऑडियो या वीडियो सामग्री से प्रतिलेखित पाठ शामिल है।

Amazon Comprehend के साथ पाठ्य सामग्री में विषाक्तता का पता लगाएं

अमेज़ॅन कॉम्प्रिहेंड एक प्राकृतिक-भाषा प्रसंस्करण (एनएलपी) सेवा है जो पाठ में मूल्यवान अंतर्दृष्टि और कनेक्शन को उजागर करने के लिए मशीन लर्निंग (एमएल) का उपयोग करती है। यह एमएल मॉडल की एक श्रृंखला प्रदान करता है जिसे या तो पूर्व-प्रशिक्षित किया जा सकता है या एपीआई इंटरफेस के माध्यम से अनुकूलित किया जा सकता है। अमेज़ॅन कॉम्प्रिहेंड अब टेक्स्ट में विषाक्त सामग्री का पता लगाने के लिए एक सीधा, एनएलपी-आधारित समाधान प्रदान करता है।

अमेज़ॅन कॉम्प्रिहेंड टॉक्सिसिटी डिटेक्शन एपीआई टेक्स्ट सामग्री को 0-1 के बीच एक समग्र विषाक्तता स्कोर प्रदान करता है, जो इसके विषाक्त होने की संभावना को दर्शाता है। यह पाठ को निम्नलिखित सात श्रेणियों में वर्गीकृत करता है और प्रत्येक के लिए एक आत्मविश्वास स्कोर प्रदान करता है:

  • द्वेषपूर्ण भाषण - ऐसा भाषण जो किसी पहचान के आधार पर किसी व्यक्ति या समूह की आलोचना, अपमान, निंदा या अमानवीयकरण करता है, चाहे वह जाति, जातीयता, लिंग पहचान, धर्म, यौन अभिविन्यास, क्षमता, राष्ट्रीय मूल, या कोई अन्य पहचान समूह हो।
  • ग्राफिक - भाषण जो दृश्यात्मक वर्णनात्मक, विस्तृत और अप्रिय रूप से ज्वलंत कल्पना का उपयोग करता है। ऐसी भाषा को अक्सर शब्दाडंबरपूर्ण बना दिया जाता है ताकि प्राप्तकर्ता के अपमान, असुविधा या हानि को बढ़ाया जा सके।
  • उत्पीड़न_या_दुर्व्यवहार - भाषण जो वक्ता और श्रोता के बीच विघटनकारी शक्ति की गतिशीलता को लागू करता है (इरादे की परवाह किए बिना), प्राप्तकर्ता के मनोवैज्ञानिक कल्याण को प्रभावित करना चाहता है, या किसी व्यक्ति को आपत्तिजनक बनाता है।
  • लैंगिक - भाषण जो शरीर के अंगों, शारीरिक लक्षणों या लिंग के प्रत्यक्ष या अप्रत्यक्ष संदर्भों का उपयोग करके यौन रुचि, गतिविधि या उत्तेजना को इंगित करता है।
  • हिंसा_या_खतरा - ऐसा भाषण जिसमें ऐसी धमकियां शामिल हों जिनका उद्देश्य किसी व्यक्ति या समूह को दर्द, चोट पहुंचाना या शत्रुता पहुंचाना हो।
  • आघात - ऐसा भाषण जिसमें नीचा दिखाने वाली, अपमानित करने वाली, मज़ाक उड़ाने वाली, अपमानित करने वाली या कमतर भाषा बोलने वाली भाषा शामिल हो।
  • गालियां बकने की क्रिया - ऐसा भाषण जिसमें ऐसे शब्द, वाक्यांश या संक्षिप्ताक्षर हों जो असभ्य, अश्लील या आपत्तिजनक हों।

आप टॉक्सिसिटी डिटेक्शन एपीआई को सीधे कॉल करके एक्सेस कर सकते हैं AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई) और एडब्ल्यूएस एसडीके। Amazon Comprehend में विषाक्तता का पता लगाना वर्तमान में अंग्रेजी भाषा में समर्थित है।

उपयोग के मामलों

सोशल मीडिया पोस्ट, ऑनलाइन चैट संदेश, फ़ोरम चर्चा, वेबसाइट टिप्पणियाँ और बहुत कुछ सहित विभिन्न प्रारूपों में उपयोगकर्ता-जनित सामग्री को प्रबंधित करने में टेक्स्ट मॉडरेशन महत्वपूर्ण भूमिका निभाता है। इसके अलावा, वीडियो और ऑडियो सामग्री स्वीकार करने वाले प्लेटफ़ॉर्म इस सुविधा का उपयोग लिखित ऑडियो सामग्री को मॉडरेट करने के लिए कर सकते हैं।

जेनेरिक एआई और बड़े भाषा मॉडल (एलएलएम) का उद्भव एआई के क्षेत्र में नवीनतम प्रवृत्ति का प्रतिनिधित्व करता है। नतीजतन, एलएलएम द्वारा उत्पन्न सामग्री को नियंत्रित करने के लिए उत्तरदायी समाधानों की आवश्यकता बढ़ रही है। अमेज़ॅन कॉम्प्रिहेंड टॉक्सिसिटी डिटेक्शन एपीआई इस आवश्यकता को संबोधित करने के लिए आदर्श रूप से उपयुक्त है।

अमेज़ॅन कॉम्प्रिहेंड टॉक्सिसिटी डिटेक्शन एपीआई अनुरोध

आप टॉक्सिसिटी डिटेक्शन एपीआई को अधिकतम 10 टेक्स्ट सेगमेंट भेज सकते हैं, प्रत्येक की आकार सीमा 1 केबी है। अनुरोध में प्रत्येक पाठ खंड को स्वतंत्र रूप से नियंत्रित किया जाता है। निम्नलिखित उदाहरण में, हम नाम से एक JSON फ़ाइल बनाते हैं toxicity_api_input.json इसमें पाठ्य सामग्री शामिल है, जिसमें मॉडरेशन के लिए तीन नमूना पाठ खंड शामिल हैं। ध्यान दें कि उदाहरण में, अपवित्र शब्दों को XXXX के रूप में छिपाया गया है।

{ "TextSegments": [ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], "LanguageCode": "en"
}

आप टेक्स्ट सामग्री वाली पूर्ववर्ती JSON फ़ाइल का उपयोग करके विषाक्तता जांच एपीआई को लागू करने के लिए AWS CLI का उपयोग कर सकते हैं:

aws comprehend detect-toxic-content --cli-input-json file://toxicity_api_input.json

अमेज़ॅन कॉम्प्रिहेंड टॉक्सिसिटी डिटेक्शन एपीआई प्रतिक्रिया

विषाक्तता जांच एपीआई प्रतिक्रिया JSON आउटपुट में विषाक्तता विश्लेषण परिणाम शामिल होगा ResultList खेत। ResultList पाठ खंड आइटमों को सूचीबद्ध करता है, और अनुक्रम उस क्रम का प्रतिनिधित्व करता है जिसमें पाठ अनुक्रम एपीआई अनुरोध में प्राप्त हुए थे। विषाक्तता पहचान के समग्र आत्मविश्वास स्कोर (0-1 के बीच) का प्रतिनिधित्व करती है। लेबल में विषाक्तता के प्रकार के आधार पर वर्गीकृत आत्मविश्वास स्कोर के साथ विषाक्तता लेबल की एक सूची शामिल है।

निम्नलिखित कोड पिछले अनुभाग में अनुरोध उदाहरण के आधार पर विषाक्तता जांच एपीआई से JSON प्रतिक्रिया दिखाता है:

{ "ResultList": [ { "Toxicity": 0.009200000204145908, "Labels": [ { "Name": "PROFANITY", "Score": 0.0007999999797903001}, { "Name": "HATE_SPEECH", "Score": 0.0017999999690800905}, { "Name": "INSULT", "Score": 0.003000000026077032}, { "Name": "GRAPHIC", "Score": 0.0010000000474974513}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.0013000000035390258}, { "Name": "SEXUAL", "Score": 0.0017000000225380063}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.004999999888241291} ] }, { "Toxicity": 0.7358999848365784, "Labels": [ { "Name": "PROFANITY", "Score": 0.011900000274181366}, { "Name": "HATE_SPEECH", "Score": 0.019500000402331352}, { "Name": "INSULT", "Score": 0.0714000016450882}, { "Name": "GRAPHIC", "Score": 0.006099999882280827}, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.018200000748038292}, { "Name": "SEXUAL", "Score": 0.0027000000700354576}, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.8145999908447266} ] }, { "Toxicity": 0.9843000173568726, "Labels": [ { "Name": "PROFANITY", "Score": 0.9369999766349792 }, { "Name": "HATE_SPEECH", "Score": 0.30880001187324524 }, { "Name": "INSULT", "Score": 0.42100000381469727 }, { "Name": "GRAPHIC", "Score": 0.12630000710487366 }, { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.25519999861717224 }, { "Name": "SEXUAL", "Score": 0.19169999659061432 }, { "Name": "VIOLENCE_OR_THREAT", "Score": 0.19539999961853027 } ] } ]
}

पूर्ववर्ती JSON में, पहले पाठ खंड को कम विषाक्तता स्कोर के साथ सुरक्षित माना जाता है। हालाँकि, दूसरे और तीसरे पाठ खंड को क्रमशः 73% और 98% का विषाक्तता स्कोर प्राप्त हुआ। दूसरे खंड के लिए, अमेज़ॅन कॉम्प्रिहेंड ने उच्च विषाक्तता स्कोर का पता लगाया है VIOLENCE_OR_THREAT; तीसरे खंड के लिए, यह पता लगाता है PROFANITY उच्च विषाक्तता स्कोर के साथ।

पायथन एसडीके का उपयोग करके नमूना अनुरोध

निम्नलिखित कोड स्निपेट दर्शाता है कि विषाक्तता जांच एपीआई को लागू करने के लिए पायथन एसडीके का उपयोग कैसे करें। यह कोड वही JSON प्रतिक्रिया प्राप्त करता है जो पहले प्रदर्शित AWS CLI कमांड के समान है।

import boto3 import base64
# Initialize a Comprehend boto3 client object
comprehend_client = session.client('comprehend') # Call comprehend Detect Toxic Content API with text segments
response = comprehend_client.detect_toxic_content( TextSegments=[ {"Text": "and go through the door go through the door he's on the right"}, {"Text": "he's on the right XXXXX him"}, {"Text": "what the XXXX are you doing man that's why i didn't want to play"} ], LanguageCode='en'
)

सारांश

इस पोस्ट में, हमने नए अमेज़ॅन कॉम्प्रिहेंसिव टॉक्सिसिटी डिटेक्शन एपीआई का अवलोकन प्रदान किया है। हमने यह भी बताया कि आप एपीआई प्रतिक्रिया JSON को कैसे पार्स कर सकते हैं। अधिक जानकारी के लिए देखें एपीआई दस्तावेज़ को समझें।

अमेज़ॅन कॉम्प्रिहेंड विषाक्तता का पता लगाना अब आम तौर पर चार क्षेत्रों में उपलब्ध है: यूएस-ईस्ट-1, यूएस-वेस्ट-2, ईयू-वेस्ट-1, और एपी-साउथईस्ट-2।

सामग्री मॉडरेशन के बारे में अधिक जानने के लिए, देखें AWS पर सामग्री मॉडरेशन के लिए मार्गदर्शन. की ओर पहला कदम बढ़ाएं AWS के साथ अपने सामग्री मॉडरेशन संचालन को सुव्यवस्थित करना.


लेखक के बारे में

लेखक - लाना झांगलाना झांगो AWS WWSO AI सर्विसेज टीम में एक वरिष्ठ समाधान वास्तुकार हैं, जो कंटेंट मॉडरेशन, कंप्यूटर विज़न, नेचुरल लैंग्वेज प्रोसेसिंग और जेनरेटिव AI के लिए AI और ML में विशेषज्ञता रखते हैं। अपनी विशेषज्ञता के साथ, वह AWS AI/ML समाधानों को बढ़ावा देने और सोशल मीडिया, गेमिंग, ई-कॉमर्स, मीडिया, विज्ञापन और मार्केटिंग सहित विभिन्न उद्योगों में अपने व्यावसायिक समाधानों को बदलने में ग्राहकों की सहायता करने के लिए समर्पित है।

लेखिका - रवीशा एस.केरवीशा एस.के एआई/एमएल पर फोकस के साथ एडब्ल्यूएस में एक वरिष्ठ उत्पाद प्रबंधक, तकनीकी हैं। उनके पास विभिन्न क्षेत्रों में डेटा एनालिटिक्स और मशीन लर्निंग में 10 वर्षों से अधिक का अनुभव है। अपने खाली समय में, वह पढ़ना, रसोई में प्रयोग करना और नई कॉफी की दुकानें तलाशना पसंद करती हैं।

समय टिकट:

से अधिक AWS मशीन लर्निंग

अमेज़ॅन हेल्थलेक से गैर-पीएचआई डेटा निकालें, जटिलता कम करें, और अमेज़ॅन एथेना और अमेज़ॅन सैजमेकर कैनवास के साथ लागत दक्षता बढ़ाएं

स्रोत नोड: 1808138
समय टिकट: फ़रवरी 28, 2023