हम बड़े भाषा मॉडल (एलएलएम) को अपनाने में तेजी से वृद्धि देख रहे हैं जो उद्योगों में जेनरेटर एआई अनुप्रयोगों को शक्ति प्रदान करता है। एलएलएम विभिन्न प्रकार के कार्यों में सक्षम हैं, जैसे रचनात्मक सामग्री तैयार करना, चैटबॉट्स के माध्यम से पूछताछ का जवाब देना, कोड उत्पन्न करना और बहुत कुछ।
जो संगठन अपने अनुप्रयोगों को सशक्त बनाने के लिए एलएलएम का उपयोग करना चाहते हैं, वे डेटा गोपनीयता के बारे में तेजी से सावधान हो रहे हैं ताकि यह सुनिश्चित किया जा सके कि उनके जेनरेटिव एआई अनुप्रयोगों में विश्वास और सुरक्षा बनी रहे। इसमें ग्राहकों की व्यक्तिगत पहचान योग्य जानकारी (पीआईआई) डेटा को ठीक से संभालना शामिल है। इसमें अपमानजनक और असुरक्षित सामग्री को एलएलएम में प्रचारित होने से रोकना और यह जांचना भी शामिल है कि एलएलएम द्वारा उत्पन्न डेटा समान सिद्धांतों का पालन करता है।
इस पोस्ट में, हम द्वारा संचालित नई सुविधाओं पर चर्चा करते हैं Amazon Comprehend जो नए और मौजूदा जेनरेटर एआई अनुप्रयोगों में डेटा गोपनीयता, सामग्री सुरक्षा और त्वरित सुरक्षा सुनिश्चित करने के लिए निर्बाध एकीकरण को सक्षम बनाता है।
अमेज़ॅन कॉम्प्रिहेंड एक प्राकृतिक भाषा प्रसंस्करण (एनएलपी) सेवा है जो दस्तावेजों के भीतर असंरचित डेटा और पाठ में जानकारी को उजागर करने के लिए मशीन लर्निंग (एमएल) का उपयोग करती है। इस पोस्ट में, हम चर्चा करते हैं कि एलएलएम में विश्वास और सुरक्षा आपके कार्यभार के लिए क्यों मायने रखती है। हम इस बात पर भी गहराई से विचार करते हैं कि लोकप्रिय जेनरेटिव एआई विकास ढांचे के साथ इन नई मॉडरेशन क्षमताओं का उपयोग कैसे किया जाता है लैंगचैन आपके उपयोग के मामले के लिए एक अनुकूलन योग्य विश्वास और सुरक्षा तंत्र पेश करना।
एलएलएम के साथ विश्वास और सुरक्षा क्यों मायने रखती है?
एलएलएम के साथ काम करते समय विश्वास और सुरक्षा सर्वोपरि है क्योंकि ग्राहक सहायता चैटबॉट से लेकर सामग्री निर्माण तक अनुप्रयोगों की एक विस्तृत श्रृंखला पर उनका गहरा प्रभाव पड़ता है। जैसे-जैसे ये मॉडल बड़ी मात्रा में डेटा संसाधित करते हैं और मानवीय प्रतिक्रियाएं उत्पन्न करते हैं, दुरुपयोग या अनपेक्षित परिणामों की संभावना बढ़ जाती है। यह सुनिश्चित करना कि ये एआई सिस्टम नैतिक और विश्वसनीय सीमाओं के भीतर काम करते हैं, न केवल उनका उपयोग करने वाले व्यवसायों की प्रतिष्ठा के लिए, बल्कि अंतिम उपयोगकर्ताओं और ग्राहकों के विश्वास को बनाए रखने के लिए भी महत्वपूर्ण है।
इसके अलावा, जैसे-जैसे एलएलएम हमारे दैनिक डिजिटल अनुभवों में अधिक एकीकृत होते जाते हैं, हमारी धारणाओं, विश्वासों और निर्णयों पर उनका प्रभाव बढ़ता जाता है। एलएलएम के साथ विश्वास और सुरक्षा सुनिश्चित करना केवल तकनीकी उपायों से परे है; यह नैतिक मानकों को बनाए रखने के लिए एआई चिकित्सकों और संगठनों की व्यापक जिम्मेदारी की बात करता है। विश्वास और सुरक्षा को प्राथमिकता देकर, संगठन न केवल अपने उपयोगकर्ताओं की सुरक्षा करते हैं, बल्कि समाज में एआई की स्थायी और जिम्मेदार वृद्धि भी सुनिश्चित करते हैं। यह हानिकारक सामग्री उत्पन्न करने के जोखिम को कम करने और नियामक आवश्यकताओं का पालन करने में भी मदद कर सकता है।
विश्वास और सुरक्षा के दायरे में, सामग्री मॉडरेशन एक ऐसा तंत्र है जो विभिन्न पहलुओं को संबोधित करता है, जिनमें शामिल हैं, लेकिन इन्हीं तक सीमित नहीं हैं:
- निजता - उपयोगकर्ता अनजाने में ऐसा टेक्स्ट प्रदान कर सकते हैं जिसमें संवेदनशील जानकारी हो, जिससे उनकी गोपनीयता खतरे में पड़ सकती है। किसी भी पीआईआई का पता लगाना और उसे संशोधित करना आवश्यक है।
- विषैलापन – घृणास्पद भाषण, धमकी या दुर्व्यवहार जैसी हानिकारक सामग्री को पहचानना और फ़िल्टर करना अत्यंत महत्वपूर्ण है।
- उपयोगकर्ता का इरादा - यह पहचानना महत्वपूर्ण है कि उपयोगकर्ता इनपुट (प्रॉम्प्ट) सुरक्षित है या असुरक्षित। असुरक्षित संकेत स्पष्ट रूप से या परोक्ष रूप से दुर्भावनापूर्ण इरादे व्यक्त कर सकते हैं, जैसे व्यक्तिगत या निजी जानकारी का अनुरोध करना और आपत्तिजनक, भेदभावपूर्ण या अवैध सामग्री उत्पन्न करना। संकेत चिकित्सा, कानूनी, राजनीतिक, विवादास्पद, व्यक्तिगत या वित्तीय पर भी अप्रत्यक्ष रूप से सलाह व्यक्त या अनुरोध कर सकते हैं
अमेज़ॅन कॉम्प्रिहेंशन के साथ सामग्री मॉडरेशन
इस अनुभाग में, हम Amazon Comprehend के साथ सामग्री मॉडरेशन के लाभों पर चर्चा करते हैं।
गोपनीयता को संबोधित करना
अमेज़ॅन कॉम्प्रिहेंड पहले से ही अपनी मौजूदा पीआईआई पहचान और संपादन क्षमताओं के माध्यम से गोपनीयता को संबोधित करता है डिटेक्टPIIइकाइयाँ और इसमें PIIइकाइयां शामिल हैं एपीआई. ये दो एपीआई एनएलपी मॉडल द्वारा समर्थित हैं जो बड़ी संख्या में पीआईआई संस्थाओं जैसे सामाजिक सुरक्षा नंबर (एसएसएन), क्रेडिट कार्ड नंबर, नाम, पते, फोन नंबर आदि का पता लगा सकते हैं। संस्थाओं की पूरी सूची के लिए, देखें पीआईआई सार्वभौमिक इकाई प्रकार. डिटेक्टपीआईआई एक पाठ के भीतर पीआईआई इकाई की चरित्र-स्तरीय स्थिति भी प्रदान करता है; उदाहरण के लिए, वाक्य "मेरा नाम है" में NAME इकाई (जॉन डो) की आरंभिक वर्ण स्थिति Jओह करोe” 12 है, और अंतिम वर्ण स्थिति 19 है। इन ऑफसेट का उपयोग मूल्यों की मास्किंग या रिडक्शन करने के लिए किया जा सकता है, जिससे एलएलएम में निजी डेटा प्रसार के जोखिम कम हो जाते हैं।
विषाक्तता को संबोधित करना और त्वरित सुरक्षा
आज, हम एपीआई के रूप में दो नई अमेज़ॅन कॉम्प्रिहेंशन सुविधाओं की घोषणा कर रहे हैं: के माध्यम से विषाक्तता का पता लगाना DetectToxicContent
एपीआई, और त्वरित सुरक्षा वर्गीकरण के माध्यम से ClassifyDocument
API. ध्यान दें कि DetectToxicContent
जबकि, एक नया एपीआई है ClassifyDocument
एक मौजूदा एपीआई है जो अब त्वरित सुरक्षा वर्गीकरण का समर्थन करती है।
विषाक्तता का पता लगाना
Amazon Comprehend विषाक्तता का पता लगाने के साथ, आप ऐसी सामग्री की पहचान और ध्वजांकित कर सकते हैं जो हानिकारक, आपत्तिजनक या अनुपयुक्त हो सकती है। यह क्षमता उन प्लेटफार्मों के लिए विशेष रूप से मूल्यवान है जहां उपयोगकर्ता सामग्री उत्पन्न करते हैं, जैसे सोशल मीडिया साइट्स, फ़ोरम, चैटबॉट, टिप्पणी अनुभाग और एप्लिकेशन जो सामग्री उत्पन्न करने के लिए एलएलएम का उपयोग करते हैं। प्राथमिक लक्ष्य विषाक्त सामग्री के प्रसार को रोककर सकारात्मक और सुरक्षित वातावरण बनाए रखना है।
इसके मूल में, विषाक्तता का पता लगाने वाला मॉडल यह निर्धारित करने के लिए पाठ का विश्लेषण करता है कि इसमें घृणित सामग्री, धमकियां, अश्लीलता या हानिकारक पाठ के अन्य रूप शामिल हैं। मॉडल को विशाल डेटासेट पर प्रशिक्षित किया गया है जिसमें विषाक्त और गैर-विषैले दोनों प्रकार की सामग्री के उदाहरण हैं। विषाक्तता एपीआई विषाक्तता वर्गीकरण और आत्मविश्वास स्कोर प्रदान करने के लिए पाठ के दिए गए टुकड़े का मूल्यांकन करता है। जेनरेटिव एआई एप्लिकेशन इस जानकारी का उपयोग उचित कार्रवाई करने के लिए कर सकते हैं, जैसे पाठ को एलएलएम में प्रचारित होने से रोकना। इस लेखन के समय, विषाक्तता का पता लगाने वाले एपीआई द्वारा पता लगाए गए लेबल हैं HATE_SPEECH
, GRAPHIC
, HARRASMENT_OR_ABUSE
, SEXUAL
, VIOLENCE_OR_THREAT
, INSULT
, तथा PROFANITY
. निम्नलिखित कोड अमेज़ॅन कॉम्प्रिहेंशन विषाक्तता का पता लगाने के लिए Python Boto3 के साथ एपीआई कॉल को प्रदर्शित करता है:
शीघ्र सुरक्षा वर्गीकरण
अमेज़ॅन कॉम्प्रिहेंड के साथ शीघ्र सुरक्षा वर्गीकरण इनपुट टेक्स्ट प्रॉम्प्ट को सुरक्षित या असुरक्षित के रूप में वर्गीकृत करने में मदद करता है। यह क्षमता चैटबॉट्स, वर्चुअल असिस्टेंट या कंटेंट मॉडरेशन टूल जैसे अनुप्रयोगों के लिए महत्वपूर्ण है, जहां प्रॉम्प्ट की सुरक्षा को समझने से एलएलएम में प्रतिक्रियाएं, कार्रवाई या सामग्री प्रसार निर्धारित किया जा सकता है।
संक्षेप में, त्वरित सुरक्षा वर्गीकरण किसी भी स्पष्ट या अंतर्निहित दुर्भावनापूर्ण इरादे के लिए मानव इनपुट का विश्लेषण करता है, जैसे कि व्यक्तिगत या निजी जानकारी का अनुरोध करना और आपत्तिजनक, भेदभावपूर्ण या अवैध सामग्री उत्पन्न करना। यह चिकित्सा, कानूनी, राजनीतिक, विवादास्पद, व्यक्तिगत या वित्तीय विषयों पर सलाह मांगने के संकेत भी देता है। शीघ्र वर्गीकरण दो वर्ग लौटाता है, UNSAFE_PROMPT
और SAFE_PROMPT
, संबद्ध पाठ के लिए, प्रत्येक के लिए संबद्ध आत्मविश्वास स्कोर के साथ। कॉन्फिडेंस स्कोर 0-1 के बीच होता है और संयुक्त रूप से इसका योग 1 होगा। उदाहरण के लिए, ग्राहक सहायता चैटबॉट में, टेक्स्ट "मैं अपना पासवर्ड कैसे रीसेट करूं?” पासवर्ड रीसेट प्रक्रियाओं पर मार्गदर्शन प्राप्त करने के इरादे का संकेत देता है और इसे इस रूप में लेबल किया गया है SAFE_PROMPT
. इसी तरह, एक बयान जैसे "मैं चाहता हूं कि आपके साथ कुछ बुरा होसंभावित रूप से हानिकारक इरादे के लिए चिह्नित किया जा सकता है और लेबल किया जा सकता है UNSAFE_PROMPT
. यह ध्यान रखना महत्वपूर्ण है कि त्वरित सुरक्षा वर्गीकरण मुख्य रूप से मशीन-जनरेटेड टेक्स्ट (एलएलएम आउटपुट) के बजाय मानव इनपुट (संकेतों) से इरादे का पता लगाने पर केंद्रित है। निम्नलिखित कोड दर्शाता है कि त्वरित सुरक्षा वर्गीकरण सुविधा तक कैसे पहुंचा जाए ClassifyDocument
एपीआई:
ध्यान दें कि endpoint_arn
पूर्ववर्ती कोड में AWS-प्रदान किया गया है अमेज़न संसाधन संख्या (ARN) पैटर्न का arn:aws:comprehend:<region>:aws:document-classifier-endpoint/prompt-safety
, जहां <region>
आपकी पसंद का AWS क्षेत्र है जहाँ अमेज़न कॉम्प्रिहेंन्ड उपलब्ध है.
इन क्षमताओं को प्रदर्शित करने के लिए, हमने एक नमूना चैट एप्लिकेशन बनाया जहां हम एक एलएलएम को दिए गए पाठ के टुकड़े से पता, फोन नंबर और एसएसएन जैसी पीआईआई इकाइयां निकालने के लिए कहते हैं। एलएलएम उपयुक्त पीआईआई संस्थाओं को ढूंढता है और लौटाता है, जैसा कि बाईं ओर की छवि में दिखाया गया है।
अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन के साथ, हम एलएलएम में इनपुट और एलएलएम से आउटपुट को रिडक्ट कर सकते हैं। दाईं ओर की छवि में, एसएसएन मान को बिना संशोधन के एलएलएम में पारित करने की अनुमति है। हालाँकि, एलएलएम की प्रतिक्रिया में किसी भी एसएसएन मान को संशोधित किया गया है।
निम्नलिखित एक उदाहरण है कि कैसे पीआईआई जानकारी वाले प्रॉम्प्ट को एलएलएम तक पहुंचने से पूरी तरह से रोका जा सकता है। यह उदाहरण दर्शाता है कि एक उपयोगकर्ता एक प्रश्न पूछ रहा है जिसमें PII जानकारी शामिल है। हम प्रॉम्प्ट में पीआईआई इकाइयों का पता लगाने और प्रवाह को बाधित करके त्रुटि दिखाने के लिए अमेज़ॅन कॉम्प्रिहेंड मॉडरेशन का उपयोग करते हैं।
पिछले चैट उदाहरण दर्शाते हैं कि कैसे अमेज़ॅन कॉम्प्रिहेंसिव मॉडरेशन एलएलएम में भेजे जाने वाले डेटा पर प्रतिबंध लागू करता है। निम्नलिखित अनुभागों में, हम बताते हैं कि लैंगचेन का उपयोग करके इस मॉडरेशन तंत्र को कैसे कार्यान्वित किया जाता है।
लैंगचेन के साथ एकीकरण
विभिन्न उपयोग के मामलों में एलएलएम के अनुप्रयोग की अनंत संभावनाओं के साथ, जेनेरिक एआई अनुप्रयोगों के विकास को सरल बनाना भी उतना ही महत्वपूर्ण हो गया है। लैंगचैन एक लोकप्रिय ओपन सोर्स फ्रेमवर्क है जो जेनरेटिव एआई अनुप्रयोगों को विकसित करना आसान बनाता है। अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन पीआईआई पहचान और रिडक्शन, विषाक्तता का पता लगाने और शीघ्र सुरक्षा वर्गीकरण क्षमताओं की पेशकश करने के लिए लैंगचेन फ्रेमवर्क का विस्तार करता है। AmazonComprehendModerationChain
.
AmazonComprehendModerationChain
का एक कस्टम कार्यान्वयन है लैंगचेन बेस चेन इंटरफेस। इसका मतलब यह है कि एप्लिकेशन इस श्रृंखला का उपयोग अपने साथ कर सकते हैं एलएलएम चेन इनपुट प्रॉम्प्ट के साथ-साथ एलएलएम से आउटपुट टेक्स्ट पर वांछित मॉडरेशन लागू करने के लिए। श्रृंखलाओं का निर्माण कई श्रृंखलाओं को मिलाकर या श्रृंखलाओं को अन्य घटकों के साथ मिलाकर किया जा सकता है। आप उपयोग कर सकते हैं AmazonComprehendModerationChain
जटिल एआई अनुप्रयोगों को मॉड्यूलर और लचीले तरीके से विकसित करने के लिए अन्य एलएलएम श्रृंखलाओं के साथ।
इसे और अधिक समझाने के लिए, हम निम्नलिखित अनुभागों में कुछ नमूने प्रदान करते हैं। के लिए स्रोत कोड AmazonComprehendModerationChain
कार्यान्वयन के भीतर पाया जा सकता है लैंगचेन ओपन सोर्स रिपॉजिटरी. एपीआई इंटरफ़ेस के पूर्ण दस्तावेज़ीकरण के लिए, लैंगचेन एपीआई दस्तावेज़ देखें अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन श्रृंखला. इस मॉडरेशन श्रृंखला का उपयोग करना उतना ही सरल है जितना कि डिफ़ॉल्ट कॉन्फ़िगरेशन के साथ कक्षा के एक उदाहरण को प्रारंभ करना:
पर्दे के पीछे, मॉडरेशन श्रृंखला लगातार तीन मॉडरेशन जांच करती है, अर्थात् पीआईआई, विषाक्तता और शीघ्र सुरक्षा, जैसा कि निम्नलिखित चित्र में बताया गया है। यह मॉडरेशन के लिए डिफ़ॉल्ट प्रवाह है.
निम्नलिखित कोड स्निपेट मॉडरेशन श्रृंखला का उपयोग करने का एक सरल उदाहरण दिखाता है अमेज़ॅन फाल्कनलाइट एलएलएम (जो इसका एक परिमाणित संस्करण है फाल्कन 40B SFT OASST-TOP1 मॉडल) हगिंग फेस हब में होस्ट किया गया:
पिछले उदाहरण में, हम अपनी श्रृंखला को बढ़ाते हैं comprehend_moderation
एलएलएम में जाने वाले पाठ और एलएलएम द्वारा उत्पन्न पाठ दोनों के लिए। यह डिफ़ॉल्ट मॉडरेशन निष्पादित करेगा जो उस क्रम में पीआईआई, विषाक्तता और त्वरित सुरक्षा वर्गीकरण की जांच करेगा।
फ़िल्टर कॉन्फ़िगरेशन के साथ अपने मॉडरेशन को अनुकूलित करें
आप का उपयोग कर सकते हैं AmazonComprehendModerationChain
विशिष्ट कॉन्फ़िगरेशन के साथ, जो आपको यह नियंत्रित करने की क्षमता देता है कि आप अपने जेनेरिक एआई-आधारित एप्लिकेशन में कौन से मॉडरेशन करना चाहते हैं। कॉन्फ़िगरेशन के मूल में, आपके पास तीन फ़िल्टर कॉन्फ़िगरेशन उपलब्ध हैं।
- मॉडरेशनPiiकॉन्फिग - PII फ़िल्टर को कॉन्फ़िगर करने के लिए उपयोग किया जाता है।
- मॉडरेशनटॉक्सिसिटीकॉन्फिग - विषाक्त सामग्री फ़िल्टर को कॉन्फ़िगर करने के लिए उपयोग किया जाता है।
- मॉडरेशनइंटेंटकॉन्फिग - आशय फ़िल्टर को कॉन्फ़िगर करने के लिए उपयोग किया जाता है।
आप अपने मॉडरेशन के व्यवहार को अनुकूलित करने के लिए इनमें से प्रत्येक फ़िल्टर कॉन्फ़िगरेशन का उपयोग कर सकते हैं। प्रत्येक फ़िल्टर के कॉन्फ़िगरेशन में कुछ सामान्य पैरामीटर और कुछ अद्वितीय पैरामीटर होते हैं, जिनके साथ उन्हें प्रारंभ किया जा सकता है। कॉन्फ़िगरेशन को परिभाषित करने के बाद, आप इसका उपयोग करते हैं BaseModerationConfig
क्लास उस अनुक्रम को परिभाषित करने के लिए जिसमें फ़िल्टर को टेक्स्ट पर लागू होना चाहिए। उदाहरण के लिए, निम्नलिखित कोड में, हम पहले तीन फ़िल्टर कॉन्फ़िगरेशन को परिभाषित करते हैं, और बाद में उस क्रम को निर्दिष्ट करते हैं जिसमें उन्हें लागू होना चाहिए:
आइए यह समझने के लिए थोड़ा गहराई से देखें कि यह कॉन्फ़िगरेशन क्या हासिल करता है:
- सबसे पहले, विषाक्तता फ़िल्टर के लिए, हमने 0.6 की सीमा निर्दिष्ट की। इसका मतलब यह है कि यदि पाठ में उपलब्ध विषाक्त लेबल या संस्थाओं में से कोई भी शामिल है जिसका स्कोर सीमा से अधिक है, तो पूरी श्रृंखला बाधित हो जाएगी।
- यदि पाठ में कोई विषाक्त सामग्री नहीं पाई जाती है, तो एक पीआईआई जांच होती है। इस मामले में, हम यह जांचने में रुचि रखते हैं कि पाठ में एसएसएन मान हैं या नहीं। क्योंकि
redact
पैरामीटर पर सेट हैTrue
, श्रृंखला पहचाने गए एसएसएन मानों (यदि कोई हो) को मास्क कर देगी, जहां एसएसएन इकाई का आत्मविश्वास स्कोर निर्दिष्ट मास्क चरित्र (एक्स) के साथ 0.5 से अधिक या उसके बराबर है। अगरredact
इसके लिए सेट हैFalse
, किसी भी एसएसएन का पता चलने पर श्रृंखला बाधित हो जाएगी। - अंत में, श्रृंखला त्वरित सुरक्षा वर्गीकरण करती है, और यदि सामग्री को वर्गीकृत किया गया है तो यह सामग्री को श्रृंखला में आगे फैलने से रोक देगी
UNSAFE_PROMPT
0.8 से अधिक या उसके बराबर के आत्मविश्वास स्कोर के साथ।
निम्न आरेख इस वर्कफ़्लो को दिखाता है।
मॉडरेशन श्रृंखला में रुकावट के मामले में (इस उदाहरण में, विषाक्तता और शीघ्र सुरक्षा वर्गीकरण फिल्टर के लिए लागू), श्रृंखला एक बढ़ा देगी पायथन अपवाद, अनिवार्य रूप से प्रगति में चल रही श्रृंखला को रोकना और आपको अपवाद को पकड़ने (ट्राई-कैच ब्लॉक में) और कोई भी प्रासंगिक कार्रवाई करने की अनुमति देना। तीन संभावित अपवाद प्रकार हैं:
ModerationPIIError
ModerationToxicityError
ModerationPromptSafetyError
आप एक फ़िल्टर या एक से अधिक फ़िल्टर का उपयोग करके कॉन्फ़िगर कर सकते हैं BaseModerationConfig
. आपके पास एक ही श्रृंखला के भीतर विभिन्न कॉन्फ़िगरेशन के साथ एक ही प्रकार का फ़िल्टर भी हो सकता है। उदाहरण के लिए, यदि आपका उपयोग मामला केवल पीआईआई से संबंधित है, तो आप एक कॉन्फ़िगरेशन निर्दिष्ट कर सकते हैं जो एसएसएन का पता चलने पर श्रृंखला को बाधित करना चाहिए; अन्यथा, इसे उम्र और नाम पीआईआई संस्थाओं पर संशोधन करना होगा। इसके लिए एक कॉन्फ़िगरेशन को इस प्रकार परिभाषित किया जा सकता है:
कॉलबैक और विशिष्ट पहचानकर्ताओं का उपयोग करना
यदि आप वर्कफ़्लो की अवधारणा से परिचित हैं, तो आप इससे भी परिचित हो सकते हैं कॉलबैक. वर्कफ़्लो के भीतर कॉलबैक कोड के स्वतंत्र टुकड़े होते हैं जो वर्कफ़्लो के भीतर कुछ शर्तों के पूरा होने पर चलते हैं। कॉलबैक या तो वर्कफ़्लो को अवरुद्ध या गैर-अवरुद्ध कर सकता है। लैंगचेन चेन, संक्षेप में, एलएलएम के लिए वर्कफ़्लो हैं। AmazonComprehendModerationChain
आपको अपने स्वयं के कॉलबैक फ़ंक्शन को परिभाषित करने की अनुमति देता है। प्रारंभ में, कार्यान्वयन केवल एसिंक्रोनस (नॉनब्लॉकिंग) कॉलबैक फ़ंक्शंस तक सीमित है।
इसका प्रभावी रूप से मतलब यह है कि यदि आप मॉडरेशन श्रृंखला के साथ कॉलबैक का उपयोग करते हैं, तो वे श्रृंखला को अवरुद्ध किए बिना उसके चलने से स्वतंत्र रूप से चलेंगे। मॉडरेशन श्रृंखला के लिए, आपको प्रत्येक मॉडरेशन चलाने के बाद, श्रृंखला से स्वतंत्र, किसी भी व्यावसायिक तर्क के साथ कोड के टुकड़े चलाने के विकल्प मिलते हैं।
बनाते समय आप वैकल्पिक रूप से एक मनमाना विशिष्ट पहचानकर्ता स्ट्रिंग भी प्रदान कर सकते हैं AmazonComprehendModerationChain
बाद में लॉगिंग और विश्लेषण सक्षम करने के लिए। उदाहरण के लिए, यदि आप एलएलएम द्वारा संचालित चैटबॉट का संचालन कर रहे हैं, तो आप उन उपयोगकर्ताओं को ट्रैक करना चाह सकते हैं जो लगातार दुर्व्यवहार कर रहे हैं या जानबूझकर या अनजाने में व्यक्तिगत जानकारी उजागर कर रहे हैं। ऐसे मामलों में, ऐसे संकेतों की उत्पत्ति को ट्रैक करना और संभवतः उन्हें डेटाबेस में संग्रहीत करना या आगे की कार्रवाई के लिए उन्हें उचित रूप से लॉग करना आवश्यक हो जाता है। आप एक अद्वितीय आईडी पास कर सकते हैं जो उपयोगकर्ता को स्पष्ट रूप से पहचानती है, जैसे कि उनका उपयोगकर्ता नाम या ईमेल, या एक एप्लिकेशन नाम जो प्रॉम्प्ट उत्पन्न कर रहा है।
कॉलबैक और अद्वितीय पहचानकर्ताओं का संयोजन आपको मॉडरेशन श्रृंखला को लागू करने का एक शक्तिशाली तरीका प्रदान करता है जो आपके उपयोग के मामले में कम कोड के साथ अधिक सामंजस्यपूर्ण तरीके से फिट बैठता है जिसे बनाए रखना आसान होता है। कॉलबैक हैंडलर के माध्यम से उपलब्ध है BaseModerationCallbackHandler
, तीन उपलब्ध कॉलबैक के साथ: on_after_pii()
, on_after_toxicity()
, तथा on_after_prompt_safety()
. श्रृंखला के भीतर संबंधित मॉडरेशन जांच निष्पादित होने के बाद इनमें से प्रत्येक कॉलबैक फ़ंक्शन को एसिंक्रोनस रूप से कॉल किया जाता है। इन फ़ंक्शंस को दो डिफ़ॉल्ट पैरामीटर भी प्राप्त होते हैं:
- मॉडरेशन_बीकन - एक शब्दकोष जिसमें विवरण शामिल हैं जैसे कि वह पाठ जिस पर मॉडरेशन किया गया था, अमेज़ॅन कॉम्प्रिहेंड एपीआई का पूर्ण JSON आउटपुट, मॉडरेशन का प्रकार, और क्या आपूर्ति किए गए लेबल (कॉन्फ़िगरेशन में) पाठ के भीतर पाए गए थे या नहीं
- अनोखा ID - वह विशिष्ट आईडी जिसे आपने एक उदाहरण प्रारंभ करते समय निर्दिष्ट किया था
AmazonComprehendModerationChain
.
निम्नलिखित एक उदाहरण है कि कॉलबैक के साथ कार्यान्वयन कैसे काम करता है। इस मामले में, हमने एक एकल कॉलबैक परिभाषित किया है कि हम चाहते हैं कि श्रृंखला पीआईआई जांच के बाद चले:
हम तब का उपयोग करते हैं my_callback
मॉडरेशन श्रृंखला आरंभ करते समय ऑब्जेक्ट करें और a भी पास करें unique_id
. आप कॉन्फ़िगरेशन के साथ या उसके बिना कॉलबैक और विशिष्ट पहचानकर्ताओं का उपयोग कर सकते हैं। जब आप उपवर्ग बनाते हैं BaseModerationCallbackHandler
, आपको उपयोग किए जाने वाले फ़िल्टर के आधार पर एक या सभी कॉलबैक विधियों को लागू करना होगा। संक्षिप्तता के लिए, निम्नलिखित उदाहरण कॉलबैक का उपयोग करने का एक तरीका दिखाता है unique_id
बिना किसी कॉन्फ़िगरेशन के:
निम्नलिखित आरेख बताता है कि कॉलबैक और विशिष्ट पहचानकर्ताओं के साथ यह मॉडरेशन श्रृंखला कैसे काम करती है। विशेष रूप से, हमने PII कॉलबैक लागू किया है जिसमें उपलब्ध डेटा के साथ एक JSON फ़ाइल लिखनी चाहिए moderation_beacon
और unique_id
पारित (इस मामले में उपयोगकर्ता का ईमेल)।
निम्नलिखित में पायथन नोटबुक, हमने कुछ अलग-अलग तरीके संकलित किए हैं जिनसे आप विभिन्न एलएलएम के साथ मॉडरेशन श्रृंखला को कॉन्फ़िगर और उपयोग कर सकते हैं, जैसे कि होस्ट किए गए एलएलएम अमेज़न SageMaker जम्पस्टार्ट और में होस्ट किया गया हगिंग फेस हब. हमने नमूना चैट एप्लिकेशन को भी शामिल किया है जिसकी हमने पहले निम्नलिखित के साथ चर्चा की थी पायथन नोटबुक.
निष्कर्ष
बड़े भाषा मॉडल और जेनरेटिव एआई की परिवर्तनकारी क्षमता निर्विवाद है। हालाँकि, उनका जिम्मेदार और नैतिक उपयोग विश्वास और सुरक्षा की चिंताओं को दूर करने पर निर्भर करता है। चुनौतियों को पहचानकर और जोखिमों को कम करने के उपायों को सक्रिय रूप से लागू करके, बड़े पैमाने पर डेवलपर्स, संगठन और समाज अपने सफल एकीकरण को रेखांकित करने वाले विश्वास और सुरक्षा को बनाए रखते हुए इन प्रौद्योगिकियों के लाभों का उपयोग कर सकते हैं। लैंगचेन में लागू रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी) वर्कफ़्लो सहित किसी भी एलएलएम वर्कफ़्लो में विश्वास और सुरक्षा सुविधाएँ जोड़ने के लिए अमेज़ॅन कॉम्प्रिहेंसिव कंटेंटमॉडरेशनचेन का उपयोग करें।
लैंगचेन और अमेज़ॅन केंद्र के अत्यधिक सटीक, मशीन लर्निंग (एमएल)-संचालित का उपयोग करके आरएजी आधारित समाधान बनाने की जानकारी के लिए बुद्धिमान खोज, देखना - Amazon Kendra, LangChain और बड़े भाषा मॉडल का उपयोग करके एंटरप्राइज़ डेटा पर उच्च-सटीकता जनरेटिव AI अनुप्रयोगों का त्वरित निर्माण करें. अगले चरण के रूप में, देखें कोड नमूने हमने लैंगचेन के साथ अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन का उपयोग करने के लिए बनाया है। अमेज़ॅन कॉम्प्रिहेंशन मॉडरेशन चेन एपीआई के पूर्ण दस्तावेज़ीकरण के लिए, लैंगचेन देखें एपीआई दस्तावेज.
लेखक के बारे में
Wrick तालुकदार Amazon Comprehend Service टीम के साथ एक वरिष्ठ वास्तुकार हैं। वह बड़े पैमाने पर मशीन लर्निंग को अपनाने में मदद करने के लिए AWS ग्राहकों के साथ काम करता है। काम के अलावा उन्हें पढ़ने और फोटोग्राफी करने में मजा आता है।
अंजन बिस्वास एआई / एमएल और डेटा एनालिटिक्स पर ध्यान देने के साथ एक वरिष्ठ एआई सेवा समाधान वास्तुकार है। अंजन विश्वव्यापी एआई सेवा टीम का हिस्सा है और एआई और एमएल के साथ व्यावसायिक समस्याओं के समाधान को समझने और विकसित करने में ग्राहकों की मदद करने के लिए उनके साथ काम करता है। अंजन के पास वैश्विक आपूर्ति श्रृंखला, विनिर्माण और खुदरा संगठनों के साथ काम करने का 14 से अधिक वर्षों का अनुभव है, और सक्रिय रूप से ग्राहकों को AWS AI सेवाओं को शुरू करने और बढ़ाने में मदद कर रहा है।
निखिल झा Amazon Web Services में वरिष्ठ तकनीकी खाता प्रबंधक हैं। उनके फोकस क्षेत्रों में एआई / एमएल, और एनालिटिक्स शामिल हैं। अपने खाली समय में, वह अपनी बेटी के साथ बैडमिंटन खेलना और बाहर घूमना पसंद करते हैं।
चिन राणे Amazon वेब सर्विसेज में AI/ML स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। वह अनुप्रयुक्त गणित और मशीन लर्निंग के बारे में भावुक है। वह AWS ग्राहकों के लिए बुद्धिमान दस्तावेज़ प्रसंस्करण समाधान तैयार करने पर ध्यान केंद्रित करती है। काम के अलावा, वह सालसा और बचाटा नृत्य का आनंद लेती है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/build-trust-and-safety-for-generative-ai-applications-with-amazon-comprehend-and-langchain/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 100
- 11
- 12
- 14
- 15% तक
- 17
- 19
- 500
- 7
- 8
- 9
- a
- क्षमताओं
- क्षमता
- About
- गाली
- पहुँच
- लेखा
- सही
- प्राप्त
- के पार
- कार्य
- कार्रवाई
- सक्रिय रूप से
- जोड़ना
- पता
- पतों
- को संबोधित
- स्वीकार कर लिया
- अपनाना
- दत्तक ग्रहण
- सलाह
- बाद
- उम्र
- AI
- ऐ सेवा
- एआई सिस्टम
- ऐ / एमएल
- सब
- की अनुमति दी
- की अनुमति दे
- की अनुमति देता है
- पहले ही
- भी
- कुल मिलाकर
- वीरांगना
- Amazon Comprehend
- अमेज़ॅन केंद्र
- अमेज़ॅन वेब सेवा
- राशियाँ
- an
- विश्लेषिकी
- का विश्लेषण करती है
- और
- की घोषणा
- जवाब
- कोई
- एपीआई
- एपीआई
- उपयुक्त
- आवेदन
- अनुप्रयोगों
- लागू
- लागू होता है
- लागू करें
- उपयुक्त
- उचित रूप से
- हैं
- क्षेत्रों के बारे में जानकारी का उपयोग करके ट्रेडिंग कर सकते हैं।
- AS
- पूछना
- पूछ
- पहलुओं
- सौंपा
- सहायकों
- जुड़े
- At
- बढ़ाना
- संवर्धित
- उपलब्ध
- एडब्ल्यूएस
- अस्तरवाला
- बुरा
- आधार
- आधारित
- BE
- क्योंकि
- बन
- हो जाता है
- व्यवहार
- जा रहा है
- विश्वासों
- लाभ
- के बीच
- परे
- खंड
- ब्लॉकिंग
- के छात्रों
- सीमाओं
- व्यापक
- निर्माण
- विश्वास का निर्माण
- इमारत
- बनाया गया
- व्यापार
- व्यवसायों
- लेकिन
- by
- कॉल
- कॉलबैक
- बुलाया
- कर सकते हैं
- क्षमताओं
- क्षमता
- सक्षम
- राजधानी
- कार्ड
- मामला
- मामलों
- कुश्ती
- कुछ
- श्रृंखला
- चेन
- चुनौतियों
- चरित्र
- chatbot
- chatbots
- चेक
- जाँच
- जाँचता
- ठोड़ी
- चुनाव
- कक्षा
- कक्षाएं
- वर्गीकरण
- वर्गीकृत
- वर्गीकृत
- ग्राहक
- कोड
- जोड़नेवाला
- COM
- संयोजन
- संयुक्त
- टिप्पणी
- सामान्य
- जटिल
- घटकों
- समझना
- संकल्पना
- चिंतित
- चिंताओं
- स्थितियां
- आत्मविश्वास
- विन्यास
- लगातार
- लगातार
- शामिल हैं
- सामग्री
- सामग्री पीढ़ी
- नियंत्रण
- विवादास्पद
- मूल
- बनाया
- बनाना
- क्रिएटिव
- श्रेय
- क्रेडिट कार्ड
- महत्वपूर्ण
- महत्वपूर्ण
- रिवाज
- ग्राहक
- ग्राहक सहयोग
- ग्राहक
- अनुकूलन
- अनुकूलित
- दैनिक
- नाच
- तिथि
- डेटा विश्लेषण
- गोपनीय आँकड़ा
- डाटाबेस
- डेटासेट
- निर्णय
- और गहरा
- चूक
- परिभाषित
- परिभाषित
- गड्ढा
- दिखाना
- दर्शाता
- निर्भर करता है
- डिज़ाइन बनाना
- वांछित
- विवरण
- पता लगाना
- पता चला
- खोज
- निर्धारित करना
- विकसित करना
- डेवलपर्स
- विकास
- विभिन्न
- डिजिटल
- चर्चा करना
- चर्चा की
- साफ़ तौर पर
- डुबकी
- do
- दस्तावेज़
- दस्तावेज़ीकरण
- दस्तावेजों
- हरिणी
- नीचे
- दो
- e
- से प्रत्येक
- पूर्व
- आसान
- प्रभावी रूप से
- सरल
- भी
- अन्य
- ईमेल
- सक्षम
- समाप्त
- अनंत
- सुनिश्चित
- सुनिश्चित
- उद्यम
- संस्थाओं
- सत्ता
- वातावरण
- बराबर
- समान रूप से
- त्रुटि
- सार
- आवश्यक
- अनिवार्य
- नैतिक
- उदाहरण
- उदाहरण
- सिवाय
- अपवाद
- मौजूदा
- अनुभव
- अनुभव
- समझाना
- समझाया
- बताते हैं
- स्पष्ट रूप से
- तलाश
- व्यक्त
- फैली
- उद्धरण
- चेहरा
- परिचित
- Feature
- विशेषताएं
- कुछ
- पट्टिका
- फ़िल्टर
- छानने
- फ़िल्टर
- वित्तीय
- खोज
- पाता
- प्रथम
- फ्लैग किए गए
- झंडे
- लचीला
- प्रवाह
- फोकस
- ध्यान केंद्रित
- केंद्रित
- निम्नलिखित
- इस प्रकार है
- के लिए
- प्रपत्र
- प्रारूप
- रूपों
- मंचों
- पाया
- ढांचा
- फ्रांस
- से
- पूर्ण
- कार्यों
- आगे
- उत्पन्न
- उत्पन्न
- सृजन
- पीढ़ी
- उत्पादक
- जनरेटिव एआई
- मिल
- gif
- देना
- दी
- देता है
- वैश्विक
- लक्ष्य
- चला जाता है
- जा
- अच्छा
- अधिक से अधिक
- उगता है
- विकास
- मार्गदर्शन
- हैंडलिंग
- हो जाता
- हानिकारक
- साज़
- नफरत
- है
- होने
- he
- मदद
- मदद
- मदद करता है
- अत्यधिक
- टिका
- उसके
- मेजबानी
- कैसे
- How To
- तथापि
- एचटीएमएल
- HTTPS
- हब
- मानव
- लगती और ना
- i
- ID
- पहचान
- पहचानकर्ता
- पहचानकर्ता
- पहचानती
- पहचान करना
- पहचान
- if
- अवैध
- दिखाता है
- की छवि
- प्रभाव
- लागू करने के
- कार्यान्वयन
- कार्यान्वित
- कार्यान्वयन
- आयात
- महत्व
- महत्वपूर्ण
- in
- अनजाने में
- शामिल
- शामिल
- शामिल
- सहित
- बढ़ना
- बढ़ जाती है
- तेजी
- स्वतंत्र
- स्वतंत्र रूप से
- उद्योगों
- प्रभाव
- करें-
- शुरू में
- निवेश
- निविष्टियां
- पूछताछ
- उदाहरण
- एकीकृत
- एकीकरण
- बुद्धिमान
- बुद्धिमान दस्तावेज़ प्रसंस्करण
- इरादा
- इरादा
- रुचि
- इंटरफेस
- बाधित
- में
- परिचय कराना
- IT
- आईटी इस
- जॉन
- जॉन डो
- जेपीजी
- JSON
- केवल
- लेबल
- भाषा
- बड़ा
- बाद में
- सीख रहा हूँ
- बाएं
- कानूनी
- कम
- पसंद
- संभावना
- सीमित
- सूची
- थोड़ा
- थोड़ा गहरा
- एलएलएम
- लॉग इन
- लॉगिंग
- तर्क
- देख
- मशीन
- यंत्र अधिगम
- बनाए रखना
- बनाता है
- प्रबंधक
- ढंग
- विनिर्माण
- मुखौटा
- गणित
- बात
- मई..
- me
- साधन
- उपायों
- तंत्र
- मीडिया
- मेडिकल
- विलय
- घास का मैदान
- तरीकों
- गलत इस्तेमाल
- कम करना
- मिश्रण
- ML
- आदर्श
- मॉडल
- संयम
- मॉड्यूलर
- अधिक
- बहुत
- चाहिए
- my
- नाम
- यानी
- नामों
- प्राकृतिक
- प्राकृतिक भाषा संसाधन
- आवश्यक
- नया
- नई सुविधाएँ
- अगला
- NLP
- नहीं
- अभी
- संख्या
- संख्या
- अनेक
- वस्तु
- of
- अपमानजनक
- प्रस्ताव
- ऑफसेट
- on
- ONE
- केवल
- खुला
- खुला स्रोत
- संचालित
- परिचालन
- ऑप्शंस
- or
- आदेश
- संगठनों
- मूल
- अन्य
- अन्यथा
- हमारी
- आउट
- परिणामों
- सड़क पर
- उत्पादन
- outputs के
- बाहर
- के ऊपर
- अपना
- प्राचल
- पैरामीटर
- आला दर्जे का
- भाग
- विशेष रूप से
- पास
- पारित कर दिया
- आवेशपूर्ण
- पासवर्ड
- पासवर्ड रीसेट
- पैटर्न
- निष्पादन
- प्रदर्शन
- प्रदर्शन
- शायद
- स्टाफ़
- व्यक्तिगत रूप से
- फ़ोन
- फ़ोटोग्राफ़ी
- टुकड़ा
- टुकड़े
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- खेल
- राजनीतिक
- लोकप्रिय
- स्थिति
- सकारात्मक
- संभावनाओं
- संभव
- पद
- संभावित
- संभावित
- बिजली
- संचालित
- शक्तिशाली
- संरक्षण
- रोकने
- मुख्यत
- प्राथमिक
- सिद्धांतों
- प्राथमिकता
- एकांत
- निजी
- निजी जानकारी
- समस्याओं
- प्रक्रिया
- प्रक्रिया
- प्रसंस्करण
- गहरा
- प्रगति
- अच्छी तरह
- रक्षा करना
- प्रदान करना
- प्रदान करता है
- अजगर
- प्रश्न
- उठाना
- रेंज
- पर्वतमाला
- उपवास
- बल्कि
- तक पहुंच गया
- पढ़ना
- क्षेत्र
- प्राप्त करना
- मान्यता देना
- को कम करने
- को कम करने
- उल्लेख
- क्षेत्र
- नियामक
- प्रासंगिक
- विश्वसनीय
- ख्याति
- का अनुरोध
- आवश्यकताएँ
- संसाधन
- कि
- प्रतिक्रिया
- प्रतिक्रियाएं
- जिम्मेदारी
- जिम्मेदार
- प्रतिबंध
- खुदरा
- रिटर्न
- सही
- जोखिम
- जोखिम
- रन
- s
- सुरक्षित
- सुरक्षा
- sagemaker
- वही
- स्केल
- दृश्यों
- स्कोर
- निर्बाध
- अनुभाग
- वर्गों
- सुरक्षा
- देखना
- शोध
- स्व
- वरिष्ठ
- संवेदनशील
- भेजा
- वाक्य
- अनुक्रम
- सेवा
- सेवाएँ
- सेट
- वह
- चाहिए
- दिखाना
- प्रदर्शन
- दिखाया
- दिखाता है
- संकेत
- उसी प्रकार
- सरल
- को आसान बनाने में
- एक
- साइटें
- टुकड़ा
- So
- सोशल मीडिया
- सोशल मीडिया
- समाज
- समाधान ढूंढे
- कुछ
- कुछ
- स्रोत
- स्रोत कोड
- बोलता हे
- विशेषज्ञ
- विशिष्ट
- विशेष रूप से
- विनिर्दिष्ट
- भाषण
- मानकों
- प्रारंभ
- शुरू
- कथन
- कदम
- रुकें
- रोक
- की दुकान
- तार
- इसके बाद
- सफल
- ऐसा
- आपूर्ति
- आपूर्ति
- आपूर्ति श्रृंखला
- समर्थन
- समर्थन करता है
- स्थायी
- सिस्टम
- लेना
- कार्य
- टीम
- तकनीकी
- टेक्नोलॉजीज
- टेम्पलेट
- टेक्स्ट
- से
- कि
- RSI
- राजधानी
- स्रोत
- लेकिन हाल ही
- उन
- फिर
- वहाँ।
- जिसके चलते
- इन
- वे
- इसका
- धमकी
- तीन
- द्वार
- यहाँ
- पहर
- सेवा मेरे
- उपकरण
- ट्रैक
- प्रशिक्षित
- परिवर्तनकारी
- ट्रस्ट
- कोशिश
- दो
- टाइप
- प्रकार
- उजागर
- निर्विवाद
- पिन से लगाना
- समझना
- समझ
- अद्वितीय
- सार्वभौम
- कायम रखना
- उपयोग
- उदाहरण
- प्रयुक्त
- उपयोगकर्ता
- उपयोगकर्ताओं
- का उपयोग करता है
- का उपयोग
- उपयोग
- उपयोग किया
- मूल्यवान
- मूल्य
- मान
- विविधता
- विभिन्न
- व्यापक
- संस्करण
- के माध्यम से
- वास्तविक
- W
- करना चाहते हैं
- था
- मार्ग..
- तरीके
- we
- वेब
- वेब सेवाओं
- कुंआ
- थे
- क्या
- एचएमबी क्या है?
- कब
- जहाँ तक
- या
- कौन कौन से
- जब
- कौन
- पूरा का पूरा
- क्यों
- चौड़ा
- विस्तृत श्रृंखला
- मर्जी
- इच्छा
- साथ में
- अंदर
- बिना
- साक्षी
- काम
- वर्कफ़्लो
- workflows
- काम कर रहे
- कार्य
- लिखना
- लिख रहे हैं
- X
- साल
- आप
- आपका
- जेफिरनेट