अमेज़ॅन कॉम्प्रिहेंशन और लैंगचेन के साथ जेनरेटिव एआई अनुप्रयोगों के लिए विश्वास और सुरक्षा बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

हम बड़े भाषा मॉडल (एलएलएम) को अपनाने में तेजी से वृद्धि देख रहे हैं जो उद्योगों में जेनरेटर एआई अनुप्रयोगों को शक्ति प्रदान करता है। एलएलएम विभिन्न प्रकार के कार्यों में सक्षम हैं, जैसे रचनात्मक सामग्री तैयार करना, चैटबॉट्स के माध्यम से पूछताछ का जवाब देना, कोड उत्पन्न करना और बहुत कुछ।

जो संगठन अपने अनुप्रयोगों को सशक्त बनाने के लिए एलएलएम का उपयोग करना चाहते हैं, वे डेटा गोपनीयता के बारे में तेजी से सावधान हो रहे हैं ताकि यह सुनिश्चित किया जा सके कि उनके जेनरेटिव एआई अनुप्रयोगों में विश्वास और सुरक्षा बनी रहे। इसमें ग्राहकों की व्यक्तिगत पहचान योग्य जानकारी (पीआईआई) डेटा को ठीक से संभालना शामिल है। इसमें अपमानजनक और असुरक्षित सामग्री को एलएलएम में प्रचारित होने से रोकना और यह जांचना भी शामिल है कि एलएलएम द्वारा उत्पन्न डेटा समान सिद्धांतों का पालन करता है।

इस पोस्ट में, हम द्वारा संचालित नई सुविधाओं पर चर्चा करते हैं Amazon Comprehend जो नए और मौजूदा जेनरेटर एआई अनुप्रयोगों में डेटा गोपनीयता, सामग्री सुरक्षा और त्वरित सुरक्षा सुनिश्चित करने के लिए निर्बाध एकीकरण को सक्षम बनाता है।

Amazon Comprehend औरlangChain | के साथ जेनरेटिव AI अनुप्रयोगों के लिए विश्वास और सुरक्षा बनाएं अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

अमेज़ॅन कॉम्प्रिहेंड एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) सेवा है जो दस्तावेजों के भीतर असंरचित डेटा और पाठ में जानकारी को उजागर करने के लिए मशीन लर्निंग (एमएल) का उपयोग करती है। इस पोस्ट में, हम चर्चा करते हैं कि एलएलएम में विश्वास और सुरक्षा आपके कार्यभार के लिए क्यों मायने रखती है। हम इस बात पर भी गहराई से विचार करते हैं कि लोकप्रिय जेनरेटिव एआई विकास ढांचे के साथ इन नई मॉडरेशन क्षमताओं का उपयोग कैसे किया जाता है लैंगचैन आपके उपयोग के मामले के लिए एक अनुकूलन योग्य विश्वास और सुरक्षा तंत्र पेश करना।

एलएलएम के साथ विश्वास और सुरक्षा क्यों मायने रखती है?

एलएलएम के साथ काम करते समय विश्वास और सुरक्षा सर्वोपरि है क्योंकि ग्राहक सहायता चैटबॉट से लेकर सामग्री निर्माण तक अनुप्रयोगों की एक विस्तृत श्रृंखला पर उनका गहरा प्रभाव पड़ता है। जैसे-जैसे ये मॉडल बड़ी मात्रा में डेटा संसाधित करते हैं और मानवीय प्रतिक्रियाएं उत्पन्न करते हैं, दुरुपयोग या अनपेक्षित परिणामों की संभावना बढ़ जाती है। यह सुनिश्चित करना कि ये एआई सिस्टम नैतिक और विश्वसनीय सीमाओं के भीतर काम करते हैं, न केवल उनका उपयोग करने वाले व्यवसायों की प्रतिष्ठा के लिए, बल्कि अंतिम उपयोगकर्ताओं और ग्राहकों के विश्वास को बनाए रखने के लिए भी महत्वपूर्ण है।

इसके अलावा, जैसे-जैसे एलएलएम हमारे दैनिक डिजिटल अनुभवों में अधिक एकीकृत होते जाते हैं, हमारी धारणाओं, विश्वासों और निर्णयों पर उनका प्रभाव बढ़ता जाता है। एलएलएम के साथ विश्वास और सुरक्षा सुनिश्चित करना केवल तकनीकी उपायों से परे है; यह नैतिक मानकों को बनाए रखने के लिए एआई चिकित्सकों और संगठनों की व्यापक जिम्मेदारी की बात करता है। विश्वास और सुरक्षा को प्राथमिकता देकर, संगठन न केवल अपने उपयोगकर्ताओं की सुरक्षा करते हैं, बल्कि समाज में एआई की स्थायी और जिम्मेदार वृद्धि भी सुनिश्चित करते हैं। यह हानिकारक सामग्री उत्पन्न करने के जोखिम को कम करने और नियामक आवश्यकताओं का पालन करने में भी मदद कर सकता है।

विश्वास और सुरक्षा के दायरे में, सामग्री मॉडरेशन एक ऐसा तंत्र है जो विभिन्न पहलुओं को संबोधित करता है, जिनमें शामिल हैं, लेकिन इन्हीं तक सीमित नहीं हैं:

निजता - उपयोगकर्ता अनजाने में ऐसा टेक्स्ट प्रदान कर सकते हैं जिसमें संवेदनशील जानकारी हो, जिससे उनकी गोपनीयता खतरे में पड़ सकती है। किसी भी पीआईआई का पता लगाना और उसे संशोधित करना आवश्यक है।
विषैलापन – घृणास्पद भाषण, धमकी या दुर्व्यवहार जैसी हानिकारक सामग्री को पहचानना और फ़िल्टर करना अत्यंत महत्वपूर्ण है।
उपयोगकर्ता का इरादा - यह पहचानना महत्वपूर्ण है कि उपयोगकर्ता इनपुट (प्रॉम्प्ट) सुरक्षित है या असुरक्षित। असुरक्षित संकेत स्पष्ट रूप से या परोक्ष रूप से दुर्भावनापूर्ण इरादे व्यक्त कर सकते हैं, जैसे व्यक्तिगत या निजी जानकारी का अनुरोध करना और आपत्तिजनक, भेदभावपूर्ण या अवैध सामग्री उत्पन्न करना। संकेत चिकित्सा, कानूनी, राजनीतिक, विवादास्पद, व्यक्तिगत या वित्तीय पर भी अप्रत्यक्ष रूप से सलाह व्यक्त या अनुरोध कर सकते हैं

अमेज़ॅन कॉम्प्रिहेंशन के साथ सामग्री मॉडरेशन

इस अनुभाग में, हम Amazon Comprehend के साथ सामग्री मॉडरेशन के लाभों पर चर्चा करते हैं।

गोपनीयता को संबोधित करना

अमेज़ॅन कॉम्प्रिहेंड पहले से ही अपनी मौजूदा पीआईआई पहचान और संपादन क्षमताओं के माध्यम से गोपनीयता को संबोधित करता है डिटेक्टPIIइकाइयाँ और इसमें PIIइकाइयां शामिल हैं एपीआई. ये दो एपीआई एनएलपी मॉडल द्वारा समर्थित हैं जो बड़ी संख्या में पीआईआई संस्थाओं जैसे सामाजिक सुरक्षा नंबर (एसएसएन), क्रेडिट कार्ड नंबर, नाम, पते, फोन नंबर आदि का पता लगा सकते हैं। संस्थाओं की पूरी सूची के लिए, देखें पीआईआई सार्वभौमिक इकाई प्रकार. डिटेक्टपीआईआई एक पाठ के भीतर पीआईआई इकाई की चरित्र-स्तरीय स्थिति भी प्रदान करता है; उदाहरण के लिए, वाक्य "मेरा नाम है" में NAME इकाई (जॉन डो) की आरंभिक वर्ण स्थिति Jओह करोe” 12 है, और अंतिम वर्ण स्थिति 19 है। इन ऑफसेट का उपयोग मूल्यों की मास्किंग या रिडक्शन करने के लिए किया जा सकता है, जिससे एलएलएम में निजी डेटा प्रसार के जोखिम कम हो जाते हैं।

विषाक्तता को संबोधित करना और त्वरित सुरक्षा

आज, हम एपीआई के रूप में दो नई अमेज़ॅन कॉम्प्रिहेंशन सुविधाओं की घोषणा कर रहे हैं: के माध्यम से विषाक्तता का पता लगाना DetectToxicContent एपीआई, और त्वरित सुरक्षा वर्गीकरण के माध्यम से ClassifyDocument API. ध्यान दें कि DetectToxicContent जबकि, एक नया एपीआई है ClassifyDocument एक मौजूदा एपीआई है जो अब त्वरित सुरक्षा वर्गीकरण का समर्थन करती है।

विषाक्तता का पता लगाना

Amazon Comprehend विषाक्तता का पता लगाने के साथ, आप ऐसी सामग्री की पहचान और ध्वजांकित कर सकते हैं जो हानिकारक, आपत्तिजनक या अनुपयुक्त हो सकती है। यह क्षमता उन प्लेटफार्मों के लिए विशेष रूप से मूल्यवान है जहां उपयोगकर्ता सामग्री उत्पन्न करते हैं, जैसे सोशल मीडिया साइट्स, फ़ोरम, चैटबॉट, टिप्पणी अनुभाग और एप्लिकेशन जो सामग्री उत्पन्न करने के लिए एलएलएम का उपयोग करते हैं। प्राथमिक लक्ष्य विषाक्त सामग्री के प्रसार को रोककर सकारात्मक और सुरक्षित वातावरण बनाए रखना है।

इसके मूल में, विषाक्तता का पता लगाने वाला मॉडल यह निर्धारित करने के लिए पाठ का विश्लेषण करता है कि इसमें घृणित सामग्री, धमकियां, अश्लीलता या हानिकारक पाठ के अन्य रूप शामिल हैं। मॉडल को विशाल डेटासेट पर प्रशिक्षित किया गया है जिसमें विषाक्त और गैर-विषैले दोनों प्रकार की सामग्री के उदाहरण हैं। विषाक्तता एपीआई विषाक्तता वर्गीकरण और आत्मविश्वास स्कोर प्रदान करने के लिए पाठ के दिए गए टुकड़े का मूल्यांकन करता है। जेनरेटिव एआई एप्लिकेशन इस जानकारी का उपयोग उचित कार्रवाई करने के लिए कर सकते हैं, जैसे पाठ को एलएलएम में प्रचारित होने से रोकना। इस लेखन के समय, विषाक्तता का पता लगाने वाले एपीआई द्वारा पता लगाए गए लेबल हैं HATE_SPEECH, GRAPHIC, HARRASMENT_OR_ABUSE, SEXUAL, VIOLENCE_OR_THREAT, INSULT, तथा PROFANITY. निम्नलिखित कोड अमेज़ॅन कॉम्प्रिहेंशन विषाक्तता का पता लगाने के लिए Python Boto3 के साथ एपीआई कॉल को प्रदर्शित करता है:

import boto3
client = boto3.client('comprehend')
response = client.detect_toxic_content( TextSegments=[{"Text": "What is the capital of France?"}, {"Text": "Where do I find good baguette in France?"}], LanguageCode='en')
print(response)

शीघ्र सुरक्षा वर्गीकरण

अमेज़ॅन कॉम्प्रिहेंड के साथ शीघ्र सुरक्षा वर्गीकरण इनपुट टेक्स्ट प्रॉम्प्ट को सुरक्षित या असुरक्षित के रूप में वर्गीकृत करने में मदद करता है। यह क्षमता चैटबॉट्स, वर्चुअल असिस्टेंट या कंटेंट मॉडरेशन टूल जैसे अनुप्रयोगों के लिए महत्वपूर्ण है, जहां प्रॉम्प्ट की सुरक्षा को समझने से एलएलएम में प्रतिक्रियाएं, कार्रवाई या सामग्री प्रसार निर्धारित किया जा सकता है।

संक्षेप में, त्वरित सुरक्षा वर्गीकरण किसी भी स्पष्ट या अंतर्निहित दुर्भावनापूर्ण इरादे के लिए मानव इनपुट का विश्लेषण करता है, जैसे कि व्यक्तिगत या निजी जानकारी का अनुरोध करना और आपत्तिजनक, भेदभावपूर्ण या अवैध सामग्री उत्पन्न करना। यह चिकित्सा, कानूनी, राजनीतिक, विवादास्पद, व्यक्तिगत या वित्तीय विषयों पर सलाह मांगने के संकेत भी देता है। शीघ्र वर्गीकरण दो वर्ग लौटाता है, UNSAFE_PROMPT और SAFE_PROMPT, संबद्ध पाठ के लिए, प्रत्येक के लिए संबद्ध आत्मविश्वास स्कोर के साथ। कॉन्फिडेंस स्कोर 0-1 के बीच होता है और संयुक्त रूप से इसका योग 1 होगा। उदाहरण के लिए, ग्राहक सहायता चैटबॉट में, टेक्स्ट "मैं अपना पासवर्ड कैसे रीसेट करूं?” पासवर्ड रीसेट प्रक्रियाओं पर मार्गदर्शन प्राप्त करने के इरादे का संकेत देता है और इसे इस रूप में लेबल किया गया है SAFE_PROMPT. इसी तरह, एक बयान जैसे "मैं चाहता हूं कि आपके साथ कुछ बुरा होसंभावित रूप से हानिकारक इरादे के लिए चिह्नित किया जा सकता है और लेबल किया जा सकता है UNSAFE_PROMPT. यह ध्यान रखना महत्वपूर्ण है कि त्वरित सुरक्षा वर्गीकरण मुख्य रूप से मशीन-जनरेटेड टेक्स्ट (एलएलएम आउटपुट) के बजाय मानव इनपुट (संकेतों) से इरादे का पता लगाने पर केंद्रित है। निम्नलिखित कोड दर्शाता है कि त्वरित सुरक्षा वर्गीकरण सुविधा तक कैसे पहुंचा जाए ClassifyDocument एपीआई:

import boto3
client = boto3.client('comprehend')
response = self.client.classify_document( Text=prompt_value, EndpointArn=endpoint_arn)
print(response)

ध्यान दें कि endpoint_arn पूर्ववर्ती कोड में AWS-प्रदान किया गया है अमेज़न संसाधन संख्या (ARN) पैटर्न का arn:aws:comprehend:<region>:aws:document-classifier-endpoint/prompt-safety, जहां <region> आपकी पसंद का AWS क्षेत्र है जहाँ अमेज़न कॉम्प्रिहेंन्ड उपलब्ध है.

इन क्षमताओं को प्रदर्शित करने के लिए, हमने एक नमूना चैट एप्लिकेशन बनाया जहां हम एक एलएलएम को दिए गए पाठ के टुकड़े से पता, फोन नंबर और एसएसएन जैसी पीआईआई इकाइयां निकालने के लिए कहते हैं। एलएलएम उपयुक्त पीआईआई संस्थाओं को ढूंढता है और लौटाता है, जैसा कि बाईं ओर की छवि में दिखाया गया है।

अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन के साथ, हम एलएलएम में इनपुट और एलएलएम से आउटपुट को रिडक्ट कर सकते हैं। दाईं ओर की छवि में, एसएसएन मान को बिना संशोधन के एलएलएम में पारित करने की अनुमति है। हालाँकि, एलएलएम की प्रतिक्रिया में किसी भी एसएसएन मान को संशोधित किया गया है।

निम्नलिखित एक उदाहरण है कि कैसे पीआईआई जानकारी वाले प्रॉम्प्ट को एलएलएम तक पहुंचने से पूरी तरह से रोका जा सकता है। यह उदाहरण दर्शाता है कि एक उपयोगकर्ता एक प्रश्न पूछ रहा है जिसमें PII जानकारी शामिल है। हम प्रॉम्प्ट में पीआईआई इकाइयों का पता लगाने और प्रवाह को बाधित करके त्रुटि दिखाने के लिए अमेज़ॅन कॉम्प्रिहेंड मॉडरेशन का उपयोग करते हैं।

पिछले चैट उदाहरण दर्शाते हैं कि कैसे अमेज़ॅन कॉम्प्रिहेंसिव मॉडरेशन एलएलएम में भेजे जाने वाले डेटा पर प्रतिबंध लागू करता है। निम्नलिखित अनुभागों में, हम बताते हैं कि लैंगचेन का उपयोग करके इस मॉडरेशन तंत्र को कैसे कार्यान्वित किया जाता है।

लैंगचेन के साथ एकीकरण

विभिन्न उपयोग के मामलों में एलएलएम के अनुप्रयोग की अनंत संभावनाओं के साथ, जेनेरिक एआई अनुप्रयोगों के विकास को सरल बनाना भी उतना ही महत्वपूर्ण हो गया है। लैंगचैन एक लोकप्रिय ओपन सोर्स फ्रेमवर्क है जो जेनरेटिव एआई अनुप्रयोगों को विकसित करना आसान बनाता है। अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन पीआईआई पहचान और रिडक्शन, विषाक्तता का पता लगाने और शीघ्र सुरक्षा वर्गीकरण क्षमताओं की पेशकश करने के लिए लैंगचेन फ्रेमवर्क का विस्तार करता है। AmazonComprehendModerationChain.

AmazonComprehendModerationChain का एक कस्टम कार्यान्वयन है लैंगचेन बेस चेन इंटरफेस। इसका मतलब यह है कि एप्लिकेशन इस श्रृंखला का उपयोग अपने साथ कर सकते हैं एलएलएम चेन इनपुट प्रॉम्प्ट के साथ-साथ एलएलएम से आउटपुट टेक्स्ट पर वांछित मॉडरेशन लागू करने के लिए। श्रृंखलाओं का निर्माण कई श्रृंखलाओं को मिलाकर या श्रृंखलाओं को अन्य घटकों के साथ मिलाकर किया जा सकता है। आप उपयोग कर सकते हैं AmazonComprehendModerationChain जटिल एआई अनुप्रयोगों को मॉड्यूलर और लचीले तरीके से विकसित करने के लिए अन्य एलएलएम श्रृंखलाओं के साथ।

इसे और अधिक समझाने के लिए, हम निम्नलिखित अनुभागों में कुछ नमूने प्रदान करते हैं। के लिए स्रोत कोड AmazonComprehendModerationChain कार्यान्वयन के भीतर पाया जा सकता है लैंगचेन ओपन सोर्स रिपॉजिटरी. एपीआई इंटरफ़ेस के पूर्ण दस्तावेज़ीकरण के लिए, लैंगचेन एपीआई दस्तावेज़ देखें अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन श्रृंखला. इस मॉडरेशन श्रृंखला का उपयोग करना उतना ही सरल है जितना कि डिफ़ॉल्ट कॉन्फ़िगरेशन के साथ कक्षा के एक उदाहरण को प्रारंभ करना:

from langchain_experimental.comprehend_moderation import AmazonComprehendModerationChain comprehend_moderation = AmazonComprehendModerationChain()

पर्दे के पीछे, मॉडरेशन श्रृंखला लगातार तीन मॉडरेशन जांच करती है, अर्थात् पीआईआई, विषाक्तता और शीघ्र सुरक्षा, जैसा कि निम्नलिखित चित्र में बताया गया है। यह मॉडरेशन के लिए डिफ़ॉल्ट प्रवाह है.

निम्नलिखित कोड स्निपेट मॉडरेशन श्रृंखला का उपयोग करने का एक सरल उदाहरण दिखाता है अमेज़ॅन फाल्कनलाइट एलएलएम (जो इसका एक परिमाणित संस्करण है फाल्कन 40B SFT OASST-TOP1 मॉडल) हगिंग फेस हब में होस्ट किया गया:

from langchain import HuggingFaceHub
from langchain import PromptTemplate, LLMChain
from langchain_experimental.comprehend_moderation import AmazonComprehendModerationChain template = """Question: {question}
Answer:"""
repo_id = "amazon/FalconLite"
prompt = PromptTemplate(template=template, input_variables=["question"])
llm = HuggingFaceHub(
repo_id=repo_id, model_kwargs={"temperature": 0.5, "max_length": 256}
)
comprehend_moderation = AmazonComprehendModerationChain(verbose=True)
chain = ( prompt | comprehend_moderation | { "input" : (lambda x: x['output']) | llm } | comprehend_moderation
) try: response = chain.invoke({"question": "An SSN is of the format 123-45-6789. Can you give me John Doe's SSN?"})
except Exception as e: print(str(e))
else: print(response['output'])

पिछले उदाहरण में, हम अपनी श्रृंखला को बढ़ाते हैं comprehend_moderation एलएलएम में जाने वाले पाठ और एलएलएम द्वारा उत्पन्न पाठ दोनों के लिए। यह डिफ़ॉल्ट मॉडरेशन निष्पादित करेगा जो उस क्रम में पीआईआई, विषाक्तता और त्वरित सुरक्षा वर्गीकरण की जांच करेगा।

फ़िल्टर कॉन्फ़िगरेशन के साथ अपने मॉडरेशन को अनुकूलित करें

आप का उपयोग कर सकते हैं AmazonComprehendModerationChain विशिष्ट कॉन्फ़िगरेशन के साथ, जो आपको यह नियंत्रित करने की क्षमता देता है कि आप अपने जेनेरिक एआई-आधारित एप्लिकेशन में कौन से मॉडरेशन करना चाहते हैं। कॉन्फ़िगरेशन के मूल में, आपके पास तीन फ़िल्टर कॉन्फ़िगरेशन उपलब्ध हैं।

मॉडरेशनPiiकॉन्फिग - PII फ़िल्टर को कॉन्फ़िगर करने के लिए उपयोग किया जाता है।
मॉडरेशनटॉक्सिसिटीकॉन्फिग - विषाक्त सामग्री फ़िल्टर को कॉन्फ़िगर करने के लिए उपयोग किया जाता है।
मॉडरेशनइंटेंटकॉन्फिग - आशय फ़िल्टर को कॉन्फ़िगर करने के लिए उपयोग किया जाता है।

आप अपने मॉडरेशन के व्यवहार को अनुकूलित करने के लिए इनमें से प्रत्येक फ़िल्टर कॉन्फ़िगरेशन का उपयोग कर सकते हैं। प्रत्येक फ़िल्टर के कॉन्फ़िगरेशन में कुछ सामान्य पैरामीटर और कुछ अद्वितीय पैरामीटर होते हैं, जिनके साथ उन्हें प्रारंभ किया जा सकता है। कॉन्फ़िगरेशन को परिभाषित करने के बाद, आप इसका उपयोग करते हैं BaseModerationConfig क्लास उस अनुक्रम को परिभाषित करने के लिए जिसमें फ़िल्टर को टेक्स्ट पर लागू होना चाहिए। उदाहरण के लिए, निम्नलिखित कोड में, हम पहले तीन फ़िल्टर कॉन्फ़िगरेशन को परिभाषित करते हैं, और बाद में उस क्रम को निर्दिष्ट करते हैं जिसमें उन्हें लागू होना चाहिए:

from langchain_experimental.comprehend_moderation import (BaseModerationConfig, ModerationPromptSafetyConfig, ModerationPiiConfig, ModerationToxicityConfig) pii_config = ModerationPiiConfig(labels=["SSN"], redact=True, mask_character="X")
toxicity_config = ModerationToxicityConfig(threshold=0.6)
prompt_safety_config = ModerationPromptSafetyConfig(threshold=0.8)
moderation_config = BaseModerationConfig(filters=[ toxicity_config, pii_config, prompt_safety_config])
comprehend_moderation = AmazonComprehendModerationChain(moderation_config=moderation_config)

आइए यह समझने के लिए थोड़ा गहराई से देखें कि यह कॉन्फ़िगरेशन क्या हासिल करता है:

सबसे पहले, विषाक्तता फ़िल्टर के लिए, हमने 0.6 की सीमा निर्दिष्ट की। इसका मतलब यह है कि यदि पाठ में उपलब्ध विषाक्त लेबल या संस्थाओं में से कोई भी शामिल है जिसका स्कोर सीमा से अधिक है, तो पूरी श्रृंखला बाधित हो जाएगी।
यदि पाठ में कोई विषाक्त सामग्री नहीं पाई जाती है, तो एक पीआईआई जांच होती है। इस मामले में, हम यह जांचने में रुचि रखते हैं कि पाठ में एसएसएन मान हैं या नहीं। क्योंकि redact पैरामीटर पर सेट है True, श्रृंखला पहचाने गए एसएसएन मानों (यदि कोई हो) को मास्क कर देगी, जहां एसएसएन इकाई का आत्मविश्वास स्कोर निर्दिष्ट मास्क चरित्र (एक्स) के साथ 0.5 से अधिक या उसके बराबर है। अगर redact इसके लिए सेट है False, किसी भी एसएसएन का पता चलने पर श्रृंखला बाधित हो जाएगी।
अंत में, श्रृंखला त्वरित सुरक्षा वर्गीकरण करती है, और यदि सामग्री को वर्गीकृत किया गया है तो यह सामग्री को श्रृंखला में आगे फैलने से रोक देगी UNSAFE_PROMPT 0.8 से अधिक या उसके बराबर के आत्मविश्वास स्कोर के साथ।

निम्न आरेख इस वर्कफ़्लो को दिखाता है।

मॉडरेशन श्रृंखला में रुकावट के मामले में (इस उदाहरण में, विषाक्तता और शीघ्र सुरक्षा वर्गीकरण फिल्टर के लिए लागू), श्रृंखला एक बढ़ा देगी पायथन अपवाद, अनिवार्य रूप से प्रगति में चल रही श्रृंखला को रोकना और आपको अपवाद को पकड़ने (ट्राई-कैच ब्लॉक में) और कोई भी प्रासंगिक कार्रवाई करने की अनुमति देना। तीन संभावित अपवाद प्रकार हैं:

ModerationPIIError
ModerationToxicityError
ModerationPromptSafetyError

आप एक फ़िल्टर या एक से अधिक फ़िल्टर का उपयोग करके कॉन्फ़िगर कर सकते हैं BaseModerationConfig. आपके पास एक ही श्रृंखला के भीतर विभिन्न कॉन्फ़िगरेशन के साथ एक ही प्रकार का फ़िल्टर भी हो सकता है। उदाहरण के लिए, यदि आपका उपयोग मामला केवल पीआईआई से संबंधित है, तो आप एक कॉन्फ़िगरेशन निर्दिष्ट कर सकते हैं जो एसएसएन का पता चलने पर श्रृंखला को बाधित करना चाहिए; अन्यथा, इसे उम्र और नाम पीआईआई संस्थाओं पर संशोधन करना होगा। इसके लिए एक कॉन्फ़िगरेशन को इस प्रकार परिभाषित किया जा सकता है:

pii_config1 = ModerationPiiConfig(labels=["SSN"], redact=False)
pii_config2 = ModerationPiiConfig(labels=["AGE", "NAME"], redact=True, mask_character="X")
moderation_config = BaseModerationConfig(filters=[ pii_config1, pii_config2])
comprehend_moderation = AmazonComprehendModerationChain(moderation_config=moderation_config)

कॉलबैक और विशिष्ट पहचानकर्ताओं का उपयोग करना

यदि आप वर्कफ़्लो की अवधारणा से परिचित हैं, तो आप इससे भी परिचित हो सकते हैं कॉलबैक. वर्कफ़्लो के भीतर कॉलबैक कोड के स्वतंत्र टुकड़े होते हैं जो वर्कफ़्लो के भीतर कुछ शर्तों के पूरा होने पर चलते हैं। कॉलबैक या तो वर्कफ़्लो को अवरुद्ध या गैर-अवरुद्ध कर सकता है। लैंगचेन चेन, संक्षेप में, एलएलएम के लिए वर्कफ़्लो हैं। AmazonComprehendModerationChain आपको अपने स्वयं के कॉलबैक फ़ंक्शन को परिभाषित करने की अनुमति देता है। प्रारंभ में, कार्यान्वयन केवल एसिंक्रोनस (नॉनब्लॉकिंग) कॉलबैक फ़ंक्शंस तक सीमित है।

इसका प्रभावी रूप से मतलब यह है कि यदि आप मॉडरेशन श्रृंखला के साथ कॉलबैक का उपयोग करते हैं, तो वे श्रृंखला को अवरुद्ध किए बिना उसके चलने से स्वतंत्र रूप से चलेंगे। मॉडरेशन श्रृंखला के लिए, आपको प्रत्येक मॉडरेशन चलाने के बाद, श्रृंखला से स्वतंत्र, किसी भी व्यावसायिक तर्क के साथ कोड के टुकड़े चलाने के विकल्प मिलते हैं।

बनाते समय आप वैकल्पिक रूप से एक मनमाना विशिष्ट पहचानकर्ता स्ट्रिंग भी प्रदान कर सकते हैं AmazonComprehendModerationChain बाद में लॉगिंग और विश्लेषण सक्षम करने के लिए। उदाहरण के लिए, यदि आप एलएलएम द्वारा संचालित चैटबॉट का संचालन कर रहे हैं, तो आप उन उपयोगकर्ताओं को ट्रैक करना चाह सकते हैं जो लगातार दुर्व्यवहार कर रहे हैं या जानबूझकर या अनजाने में व्यक्तिगत जानकारी उजागर कर रहे हैं। ऐसे मामलों में, ऐसे संकेतों की उत्पत्ति को ट्रैक करना और संभवतः उन्हें डेटाबेस में संग्रहीत करना या आगे की कार्रवाई के लिए उन्हें उचित रूप से लॉग करना आवश्यक हो जाता है। आप एक अद्वितीय आईडी पास कर सकते हैं जो उपयोगकर्ता को स्पष्ट रूप से पहचानती है, जैसे कि उनका उपयोगकर्ता नाम या ईमेल, या एक एप्लिकेशन नाम जो प्रॉम्प्ट उत्पन्न कर रहा है।

कॉलबैक और अद्वितीय पहचानकर्ताओं का संयोजन आपको मॉडरेशन श्रृंखला को लागू करने का एक शक्तिशाली तरीका प्रदान करता है जो आपके उपयोग के मामले में कम कोड के साथ अधिक सामंजस्यपूर्ण तरीके से फिट बैठता है जिसे बनाए रखना आसान होता है। कॉलबैक हैंडलर के माध्यम से उपलब्ध है BaseModerationCallbackHandler, तीन उपलब्ध कॉलबैक के साथ: on_after_pii(), on_after_toxicity(), तथा on_after_prompt_safety(). श्रृंखला के भीतर संबंधित मॉडरेशन जांच निष्पादित होने के बाद इनमें से प्रत्येक कॉलबैक फ़ंक्शन को एसिंक्रोनस रूप से कॉल किया जाता है। इन फ़ंक्शंस को दो डिफ़ॉल्ट पैरामीटर भी प्राप्त होते हैं:

मॉडरेशन_बीकन - एक शब्दकोष जिसमें विवरण शामिल हैं जैसे कि वह पाठ जिस पर मॉडरेशन किया गया था, अमेज़ॅन कॉम्प्रिहेंड एपीआई का पूर्ण JSON आउटपुट, मॉडरेशन का प्रकार, और क्या आपूर्ति किए गए लेबल (कॉन्फ़िगरेशन में) पाठ के भीतर पाए गए थे या नहीं
अनोखा ID - वह विशिष्ट आईडी जिसे आपने एक उदाहरण प्रारंभ करते समय निर्दिष्ट किया था AmazonComprehendModerationChain.

निम्नलिखित एक उदाहरण है कि कॉलबैक के साथ कार्यान्वयन कैसे काम करता है। इस मामले में, हमने एक एकल कॉलबैक परिभाषित किया है कि हम चाहते हैं कि श्रृंखला पीआईआई जांच के बाद चले:

from langchain_experimental.comprehend_moderation import BaseModerationCallbackHandler class MyModCallback(BaseModerationCallbackHandler): async def on_after_pii(self, output_beacon, unique_id): import json moderation_type = output_beacon['moderation_type'] chain_id = output_beacon['moderation_chain_id'] with open(f'output-{moderation_type}-{chain_id}.json', 'w') as file: data = { 'beacon_data': output_beacon, 'unique_id': unique_id } json.dump(data, file) ''' # implement this callback for toxicity async def on_after_toxicity(self, output_beacon, unique_id): pass # implement this callback for prompt safety async def on_after_prompt_safety(self, output_beacon, unique_id): pass ''' my_callback = MyModCallback()

हम तब का उपयोग करते हैं my_callback मॉडरेशन श्रृंखला आरंभ करते समय ऑब्जेक्ट करें और a भी पास करें unique_id. आप कॉन्फ़िगरेशन के साथ या उसके बिना कॉलबैक और विशिष्ट पहचानकर्ताओं का उपयोग कर सकते हैं। जब आप उपवर्ग बनाते हैं BaseModerationCallbackHandler, आपको उपयोग किए जाने वाले फ़िल्टर के आधार पर एक या सभी कॉलबैक विधियों को लागू करना होगा। संक्षिप्तता के लिए, निम्नलिखित उदाहरण कॉलबैक का उपयोग करने का एक तरीका दिखाता है unique_id बिना किसी कॉन्फ़िगरेशन के:

comprehend_moderation = AmazonComprehendModerationChain(
moderation_callback = my_callback,
unique_id = 'john.doe@email.com')

निम्नलिखित आरेख बताता है कि कॉलबैक और विशिष्ट पहचानकर्ताओं के साथ यह मॉडरेशन श्रृंखला कैसे काम करती है। विशेष रूप से, हमने PII कॉलबैक लागू किया है जिसमें उपलब्ध डेटा के साथ एक JSON फ़ाइल लिखनी चाहिए moderation_beacon और unique_id पारित (इस मामले में उपयोगकर्ता का ईमेल)।

निम्नलिखित में पायथन नोटबुक, हमने कुछ अलग-अलग तरीके संकलित किए हैं जिनसे आप विभिन्न एलएलएम के साथ मॉडरेशन श्रृंखला को कॉन्फ़िगर और उपयोग कर सकते हैं, जैसे कि होस्ट किए गए एलएलएम अमेज़न SageMaker जम्पस्टार्ट और में होस्ट किया गया हगिंग फेस हब. हमने नमूना चैट एप्लिकेशन को भी शामिल किया है जिसकी हमने पहले निम्नलिखित के साथ चर्चा की थी पायथन नोटबुक.

निष्कर्ष

बड़े भाषा मॉडल और जेनरेटिव एआई की परिवर्तनकारी क्षमता निर्विवाद है। हालाँकि, उनका जिम्मेदार और नैतिक उपयोग विश्वास और सुरक्षा की चिंताओं को दूर करने पर निर्भर करता है। चुनौतियों को पहचानकर और जोखिमों को कम करने के उपायों को सक्रिय रूप से लागू करके, बड़े पैमाने पर डेवलपर्स, संगठन और समाज अपने सफल एकीकरण को रेखांकित करने वाले विश्वास और सुरक्षा को बनाए रखते हुए इन प्रौद्योगिकियों के लाभों का उपयोग कर सकते हैं। लैंगचेन में लागू रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी) वर्कफ़्लो सहित किसी भी एलएलएम वर्कफ़्लो में विश्वास और सुरक्षा सुविधाएँ जोड़ने के लिए अमेज़ॅन कॉम्प्रिहेंसिव कंटेंटमॉडरेशनचेन का उपयोग करें।

लैंगचेन और अमेज़ॅन केंद्र के अत्यधिक सटीक, मशीन लर्निंग (एमएल)-संचालित का उपयोग करके आरएजी आधारित समाधान बनाने की जानकारी के लिए बुद्धिमान खोज, देखना - Amazon Kendra, LangChain और बड़े भाषा मॉडल का उपयोग करके एंटरप्राइज़ डेटा पर उच्च-सटीकता जनरेटिव AI अनुप्रयोगों का त्वरित निर्माण करें. अगले चरण के रूप में, देखें कोड नमूने हमने लैंगचेन के साथ अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन का उपयोग करने के लिए बनाया है। अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन चेन एपीआई के पूर्ण दस्तावेज़ीकरण के लिए, लैंगचेन देखें एपीआई दस्तावेज.

लेखक के बारे में

Wrick तालुकदार Amazon Comprehend Service टीम के साथ एक वरिष्ठ वास्तुकार हैं। वह बड़े पैमाने पर मशीन लर्निंग को अपनाने में मदद करने के लिए AWS ग्राहकों के साथ काम करता है। काम के अलावा उन्हें पढ़ने और फोटोग्राफी करने में मजा आता है।

अंजन बिस्वास एआई / एमएल और डेटा एनालिटिक्स पर ध्यान देने के साथ एक वरिष्ठ एआई सेवा समाधान वास्तुकार है। अंजन विश्वव्यापी एआई सेवा टीम का हिस्सा है और एआई और एमएल के साथ व्यावसायिक समस्याओं के समाधान को समझने और विकसित करने में ग्राहकों की मदद करने के लिए उनके साथ काम करता है। अंजन के पास वैश्विक आपूर्ति श्रृंखला, विनिर्माण और खुदरा संगठनों के साथ काम करने का 14 से अधिक वर्षों का अनुभव है, और सक्रिय रूप से ग्राहकों को AWS AI सेवाओं को शुरू करने और बढ़ाने में मदद कर रहा है।

निखिल झा Amazon Web Services में वरिष्ठ तकनीकी खाता प्रबंधक हैं। उनके फोकस क्षेत्रों में एआई / एमएल, और एनालिटिक्स शामिल हैं। अपने खाली समय में, वह अपनी बेटी के साथ बैडमिंटन खेलना और बाहर घूमना पसंद करते हैं।

चिन राणे Amazon वेब सर्विसेज में AI/ML स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। वह अनुप्रयुक्त गणित और मशीन लर्निंग के बारे में भावुक है। वह AWS ग्राहकों के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण समाधान तैयार करने पर ध्यान केंद्रित करती है। काम के अलावा, वह सालसा और बचाटा नृत्य का आनंद लेती है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/build-trust-and-safety-for-generative-ai-applications-with-amazon-comprehend-and-langchain/

समय टिकट: नवम्बर 10/2023

समय टिकट: अगस्त 11, 2022

प्लेटो द्वारा पुनर्प्रकाशित

Amazon SageMaker Edge और Ambarella CV25 के साथ किनारे पर ML का अनुमान लगाना

Amazon SageMaker और Triton Inference Server के साथ कई मॉडल परोसें

अमेज़ॅन लुकआउट फॉर विज़न के लिए छवि वृद्धि पाइपलाइन

मेट्रिक्स के लिए Amazon Lookout का उपयोग करके एक वायु गुणवत्ता विसंगति डिटेक्टर बनाएं

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा