आधुनिक कंपनियों के लिए जो अनुबंध, चालान, बायोडाटा और रिपोर्ट जैसे भारी मात्रा में दस्तावेजों से निपटते हैं, प्रतिस्पर्धी बढ़त बनाए रखने के लिए प्रासंगिक डेटा को कुशलतापूर्वक संसाधित करना और पुनर्प्राप्त करना महत्वपूर्ण है। हालाँकि, दस्तावेज़ों को संग्रहीत करने और खोजने के पारंपरिक तरीकों में समय लग सकता है और अक्सर किसी विशिष्ट दस्तावेज़ को खोजने के लिए बड़े प्रयास की आवश्यकता होती है, खासकर जब उनमें लिखावट शामिल होती है। क्या होगा यदि दस्तावेज़ों को समझदारी से संसाधित करने और उन्हें उच्च सटीकता के साथ खोजने योग्य बनाने का कोई तरीका हो?
यह संभव हुआ है अमेज़न टेक्सट्रेक, AWS की इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग सेवा, तेज खोज क्षमताओं के साथ मिलकर OpenSearch. इस पोस्ट में, हम आपको एक दस्तावेज़ खोज अनुक्रमण समाधान को तेज़ी से बनाने और तैनात करने की यात्रा पर ले जाएंगे जो आपके संगठन को दस्तावेज़ों से बेहतर जानकारी प्राप्त करने और निकालने में मदद करता है।
चाहे आप मानव संसाधन में कर्मचारी अनुबंधों में विशिष्ट खंडों की तलाश कर रहे हों, या एक वित्तीय विश्लेषक जो भुगतान डेटा निकालने के लिए चालानों के पहाड़ को छान रहा हो, यह समाधान आपको अभूतपूर्व गति और सटीकता के साथ आवश्यक जानकारी तक पहुंचने के लिए सशक्त बनाने के लिए तैयार किया गया है।
प्रस्तावित समाधान के साथ, आपके दस्तावेज़ स्वचालित रूप से शामिल हो जाते हैं, उनकी सामग्री को पार्स किया जाता है और बाद में अत्यधिक प्रतिक्रियाशील और स्केलेबल ओपनसर्च इंडेक्स में अनुक्रमित किया जाता है।
हम कवर करेंगे कि कैसे अमेज़ॅन टेक्सट्रैक्ट जैसी प्रौद्योगिकियां, AWS लाम्बा, अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3), और अमेज़न ओपन सर्च सर्विस इसे ऐसे वर्कफ़्लो में एकीकृत किया जा सकता है जो दस्तावेज़ों को निर्बाध रूप से संसाधित करता है। फिर हम इस डेटा को ओपनसर्च में अनुक्रमित करने में लग जाते हैं और उन खोज क्षमताओं को प्रदर्शित करते हैं जो आपकी उंगलियों पर उपलब्ध हो जाती हैं।
चाहे आपका संगठन डिजिटल परिवर्तन युग में पहला कदम उठा रहा हो या टर्बोचार्ज्ड सूचना पुनर्प्राप्ति की मांग करने वाली एक स्थापित दिग्गज कंपनी हो, यह मार्गदर्शिका AWS इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग और ओपनसर्च द्वारा प्रदान किए जाने वाले अवसरों को नेविगेट करने के लिए आपके लिए दिशा सूचक यंत्र है।
RSI कार्यान्वयन इस पोस्ट में प्रयुक्त का उपयोग करता है अमेज़ॅन टेक्सट्रैक्ट आईडीपी सीडीके का निर्माण - इंटेलिजेंट डॉक्यूमेंट प्रोसेसिंग (आईडीपी) वर्कफ़्लो के लिए बुनियादी ढांचे को परिभाषित करने के लिए एडब्ल्यूएस क्लाउड डेवलपमेंट किट (सीडीके) घटक - जो आपको उपयोग के मामले में विशिष्ट अनुकूलन योग्य आईडीपी वर्कफ़्लो बनाने की अनुमति देते हैं। आईडीपी सीडीके निर्माण और नमूने एडब्ल्यूएस पर आईडीपी प्रक्रियाओं की परिभाषा को सक्षम करने और प्रकाशित करने के लिए घटकों का एक संग्रह हैं GitHub. उपयोग की जाने वाली मुख्य अवधारणाएँ AWS हैं क्लाउड डेवलपमेंट किट (सीडीके) निर्माण, वास्तविक सीडीके ढेर और AWS स्टेप फ़ंक्शंस. कार्यशाला दस्तावेज़ों को बड़े पैमाने पर स्वचालित और संसाधित करने के लिए मशीन लर्निंग का उपयोग करें वर्कफ़्लो को अनुकूलित करने और अपने स्वयं के आधार के रूप में अन्य नमूना वर्कफ़्लो का उपयोग करने के बारे में अधिक जानने के लिए एक अच्छा प्रारंभिक बिंदु है।
समाधान अवलोकन
इस समाधान में, हम जानकारी और दस्तावेज़ों की त्वरित खोज और पुनर्प्राप्ति के लिए दस्तावेज़ों को ओपनसर्च इंडेक्स में अनुक्रमित करने पर ध्यान केंद्रित करते हैं। पीडीएफ, टीआईएफएफ, जेपीईजी या पीएनजी प्रारूप में दस्तावेज़ अमेज़ॅन सिंपल स्टोरेज सर्विस में रखे जाते हैं (अमेज़न S3) बकेट और बाद में इस स्टेप फ़ंक्शंस वर्कफ़्लो का उपयोग करके ओपनसर्च में अनुक्रमित किया गया।
RSI OpenSearchWorkflow-निर्णायक दस्तावेज़ को देखता है और सत्यापित करता है कि दस्तावेज़ समर्थित माइम प्रकारों (पीडीएफ, टीआईएफएफ, पीएनजी या जेपीईजी) में से एक है। इसमें एक शामिल है AWS लाम्बा समारोह.
RSI दस्तावेज़विभाजक दस्तावेज़ों से अधिकतम 2500 पेज का हिस्सा तैयार होता है। इसका मतलब यह है कि भले ही अमेज़ॅन टेक्स्टट्रैक्ट 3000 पृष्ठों तक के दस्तावेज़ों का समर्थन करता है, आप कई और पृष्ठों वाले दस्तावेज़ों को पास कर सकते हैं और प्रक्रिया अभी भी ठीक काम करती है और पृष्ठों को ओपनसर्च में डालती है और सही पृष्ठ संख्या बनाती है। दस्तावेज़विभाजक AWS लैम्ब्डा फ़ंक्शन के रूप में कार्यान्वित किया गया है।
RSI मानचित्र राज्य प्रत्येक टुकड़े को समानांतर में संसाधित करता है।
RSI टेक्सट्रैक्टएसिंक कार्य एसिंक्रोनस का उपयोग करके अमेज़ॅन टेक्स्टट्रैक्ट को कॉल करता है अनुप्रयोग प्रोग्रामिंग इंटरफ़ेस (एपीआई) निम्नलिखित है सर्वोत्तम प्रथाओं अमेज़ॅन सरल अधिसूचना सेवा के साथ (अमेज़ॅन एसएनएस) सूचनाएं और आउटपुट कॉन्फिग Amazon Texttract JSON आउटपुट को ग्राहक Amazon S3 बकेट में संग्रहीत करने के लिए। इसमें दो अमेज़ॅन लैम्ब्डा फ़ंक्शन शामिल हैं: एक प्रसंस्करण के लिए दस्तावेज़ जमा करना और दूसरा अमेज़ॅन एसएनएस अधिसूचना पर ट्रिगर होना।
क्योंकि TexttractAsyएनसी कार्य एकाधिक पृष्ठांकित आउटपुट फ़ाइलें उत्पन्न कर सकता है TexttractAsyncToJSON2 प्रक्रिया उन्हें एक JSON फ़ाइल में जोड़ती है।
स्टेप फ़ंक्शंस संदर्भ जानकारी से समृद्ध है जिसे ओपनसर्च इंडेक्स में भी खोजा जाना चाहिए सेटमेटाडेटा कदम। नमूना कार्यान्वयन जोड़ता है ORIGIN_FILE_NAME
, START_PAGE_NUMBER
, तथा ORIGIN_FILE_URI
. आप खोज अनुभव को समृद्ध करने के लिए कोई भी जानकारी जोड़ सकते हैं, जैसे अन्य बैकएंड सिस्टम की जानकारी, विशिष्ट आईडी या वर्गीकरण जानकारी।
RSI ओपनसर्चबैच जेनरेट करें जेनरेट किए गए अमेज़ॅन टेक्सट्रैक्ट आउटपुट JSON को लेता है, इसे SetMetaData द्वारा निर्धारित संदर्भ से जानकारी के साथ जोड़ता है और एक फ़ाइल तैयार करता है जो OpenSearch में बैच आयात के लिए अनुकूलित है।
में OpenSearchPushInvoke, यह बैच आयात फ़ाइल ओपनसर्च इंडेक्स में भेजी जाती है और खोज के लिए उपलब्ध होती है। यह AWS लैम्ब्डा फ़ंक्शन के साथ जुड़ा हुआ है एडब्ल्यूएस-लैम्ब्डा-ओपनसर्च से निर्माण करें AWS समाधान लाइब्रेरी m6g.large.search इंस्टेंसेस, OpenSearch संस्करण 2.7 का उपयोग कर रही है, और Amazon Elastic Block Service को कॉन्फ़िगर किया गया है (अमेज़ॅन ईबीएस) वॉल्यूम का आकार सामान्य प्रयोजन 2 (जीपी2) 200 जीबी के साथ। आप अपनी आवश्यकताओं के अनुसार ओपनसर्च कॉन्फ़िगरेशन को बदल सकते हैं।
अंतिम टास्कओपनसर्चमैपिंग चरण संदर्भ को साफ़ करता है, जो अन्यथा इससे अधिक हो सकता है चरण कार्य कोटा of किसी कार्य, स्थिति या निष्पादन के लिए अधिकतम इनपुट या आउटपुट आकार.
.. पूर्वापेक्षाएँ
नमूनों को तैनात करने के लिए, आपको एक AWS खाते की आवश्यकता है AWS क्लाउड डेवलपमेंट किट (AWS CDK), एक वर्तमान पायथन संस्करण और डॉकर की आवश्यकता है। आपको AWS CloudFormation टेम्प्लेट तैनात करने के लिए अनुमति की आवश्यकता है, इस पर पुश करें अमेज़ॅन इलास्टिक कंटेनर रजिस्ट्री (अमेज़ॅन ईसीआर), बनाएं अमेज़ॅन पहचान और पहुंच प्रबंधन (AWS IAM) भूमिकाएँ, Amazon Lambda फ़ंक्शन, Amazon S3 बकेट, Amazon स्टेप फ़ंक्शंस, Amazon OpenSearch क्लस्टर, और एक अमेज़ॅन कॉग्निटो उपयोगकर्ता पूल. सुनिश्चित करें कि आपका AWS CLI वातावरण सेटअप है तदनुसार अनुमतियों के साथ.
आप इसे स्पिन भी कर सकते हैं AWS क्लाउड 9 परिनियोजन आरंभ करने के लिए AWS CDK, Python और Docker के साथ उदाहरण पहले से इंस्टॉल किया गया है।
Walkthrough
तैनाती
- आवश्यक शर्तें सेट करने के बाद, आपको सबसे पहले रिपॉजिटरी को क्लोन करना होगा:
- फिर रिपोजिटरी फ़ोल्डर में सीडी डालें और निर्भरताएँ स्थापित करें:
- OpenSearchWorkflow स्टैक परिनियोजित करें:
GitHub नमूनों से डिफ़ॉल्ट कॉन्फ़िगरेशन सेटिंग्स के साथ परिनियोजन में लगभग 25 मिनट लगते हैं, और एक स्टेप फ़ंक्शंस वर्कफ़्लो बनाता है, जिसे तब लागू किया जाता है जब किसी दस्तावेज़ को Amazon S3 बकेट/उपसर्ग पर रखा जाता है और बाद में दस्तावेज़ की सामग्री को अनुक्रमित होने तक संसाधित किया जाता है। ओपनसर्च क्लस्टर में।
निम्नलिखित एक नमूना आउटपुट है जिसमें उपयोगी लिंक और इससे उत्पन्न जानकारी शामिल हैcdk deploy OpenSearchWorkflow
आदेश:
यह जानकारी AWS क्लाउडफ़ॉर्मेशन कंसोल में भी उपलब्ध है।
जब कोई नया दस्तावेज़ के अंतर्गत रखा जाता है OpenSearchWorkflow.DocumentUploadLocation, इस दस्तावेज़ के लिए एक नया स्टेप फ़ंक्शंस वर्कफ़्लो प्रारंभ किया गया है।
इस दस्तावेज़ की स्थिति की जांच करने के लिए, OpenSearchWorkflow.StepFunctionFlowLink AWS प्रबंधन कंसोल में स्टेपफ़ंक्शन निष्पादन की सूची के लिए एक लिंक प्रदान करता है, जो अमेज़ॅन S3 पर अपलोड किए गए प्रत्येक दस्तावेज़ के लिए दस्तावेज़ प्रसंस्करण की स्थिति प्रदर्शित करता है। ट्यूटोरियल स्टेप फ़ंक्शंस कंसोल पर निष्पादन देखना और डिबग करना AWS कंसोल में घटकों और दृश्यों का अवलोकन प्रदान करता है।
परीक्षण
- नमूना फ़ाइल का उपयोग करके पहला परीक्षण।
- स्टेपफ़ंक्शन वर्कफ़्लो के लिंक का चयन करने या एडब्ल्यूएस प्रबंधन कंसोल खोलने और स्टेप फ़ंक्शंस सेवा पृष्ठ पर जाने के बाद, आप विभिन्न वर्कफ़्लो आमंत्रण देख सकते हैं।
- वर्तमान में चल रहे नमूना दस्तावेज़ निष्पादन पर एक नज़र डालें, जहाँ आप व्यक्तिगत वर्कफ़्लो कार्यों के निष्पादन का अनुसरण कर सकते हैं।
Search
एक बार प्रक्रिया समाप्त हो जाने पर, हम सत्यापित कर सकते हैं कि दस्तावेज़ ओपनसर्च इंडेक्स में अनुक्रमित है।
- ऐसा करने के लिए, पहले हम एक Amazon Cognito उपयोगकर्ता बनाते हैं। Amazon Cognito का उपयोग OpenSearch इंडेक्स के विरुद्ध उपयोगकर्ताओं के प्रमाणीकरण के लिए किया जाता है। सीडीके परिनियोजन से आउटपुट में लिंक का चयन करें (या देखें)। एडब्ल्यूएस CloudFormation AWS प्रबंधन कंसोल में आउटपुट) नाम दिया गया है OpenSearchWorkflow.CognitoUserPoolLink.
- इसके बाद सेलेक्ट करें उपयोगकर्ता बनाइये बटन, जो आपको ओपनसर्च डैशबोर्ड तक पहुंचने के लिए उपयोगकर्ता नाम और पासवर्ड दर्ज करने के लिए एक पृष्ठ पर ले जाता है।
- चुनने के बाद उपयोगकर्ता बनाइये, आप पर क्लिक करके ओपनसर्च डैशबोर्ड को जारी रख सकते हैं OpenSearchWorkflow.OpenSearchDashboard सीडीके परिनियोजन आउटपुट से। पहले बनाए गए उपयोगकर्ता नाम और पासवर्ड का उपयोग करके लॉगिन करें। पहली बार लॉगिन करते समय आपको पासवर्ड बदलना होगा।
- ओपनसर्च डैशबोर्ड में लॉग इन होने के बाद, का चयन करें ढेर प्रबंधन अनुभाग, उसके बाद सूचकांक पैटर्नएक खोज सूचकांक बनाने के लिए।
- सूचकांक का डिफ़ॉल्ट नाम है कागजात-सूचकांक और एक सूचकांक पैटर्न नाम कागजात-सूचकांक* उससे मेल खाएंगे.
- क्लिक करने के बाद अगला कदम, चुनते हैं टाइमस्टैम्प जैसा समय क्षेत्र और सूचकांक पैटर्न बनाएं.
- अब, मेनू से, चुनें खोजे .
ज्यादातर मामलों में, आपको अपने अंतिम सेवन के अनुसार समय-अवधि को बदलने की आवश्यकता होती है। डिफ़ॉल्ट 15 मिनट है और अक्सर अंतिम 15 मिनट में कोई गतिविधि नहीं होती है। इस उदाहरण में, निगलने की कल्पना करने के लिए इसे 15 दिनों में बदल दिया गया।
- अब आप खोजना शुरू कर सकते हैं. एक उपन्यास अनुक्रमित किया गया था, आप जैसे कोई भी शब्द खोज सकते हैं मुझे इश्माएल बुलाओ और परिणाम देखें.
इस मामले में, शब्द मुझे इश्माएल बुलाओ दस्तावेज़ के पृष्ठ 6 पर दिए गए यूनिफ़ॉर्म रिसोर्स आइडेंटिफ़ायर (यूआरआई) पर दिखाई देता है, जो फ़ाइल के अमेज़ॅन एस3 स्थान की ओर इशारा करता है। इससे दस्तावेज़ों की पहचान करना और पीडीएफ, टीआईएफएफ या छवि दस्तावेज़ों के बड़े संग्रह में जानकारी ढूंढना, उन्हें मैन्युअल रूप से छोड़ने की तुलना में तेज़ हो जाता है।
बड़े पैमाने पर चल रहा है
अनुक्रमण प्रक्रिया के पैमाने और अवधि का अनुमान लगाने के लिए, कार्यान्वयन का परीक्षण 93,997 दस्तावेज़ों और कुल 1,583,197 पृष्ठों (औसत 16.84 पृष्ठ/दस्तावेज़ और 3755 पृष्ठों वाली सबसे बड़ी फ़ाइल) के साथ किया गया था, जो सभी ओपनसर्च में अनुक्रमित हो गए। सभी फ़ाइलों को संसाधित करने और उन्हें ओपनसर्च में अनुक्रमित करने में डिफ़ॉल्ट का उपयोग करके यूएस ईस्ट (एन. वर्जीनिया - यूएस-ईस्ट-5.5) क्षेत्र में 1 घंटे लगे। अमेज़ॅन टेक्स्ट्रेक्ट सेवा कोटा. नीचे दिया गया ग्राफ़ 18:00 पर प्रारंभिक परीक्षण दिखाता है, उसके बाद 21:00 पर मुख्य परीक्षण और 2:30 तक सब कुछ किया जाता है।
प्रसंस्करण के लिए, tcdk.SFExecutionsStartThrottle एक पर सेट किया गया था executions_concurrency_threshold
=550, जिसका अर्थ है कि समवर्ती दस्तावेज़ प्रसंस्करण वर्कफ़्लो को 550 पर सीमित कर दिया गया है और अतिरिक्त अनुरोधों को कतारबद्ध कर दिया गया है अमेज़न SQS फिस्ट-इन-फर्स्ट-आउट (फीफो) कतार, जो बाद में वर्तमान वर्कफ़्लो समाप्त होने पर समाप्त हो जाती है। 550 की सीमा यूएस-ईस्ट-600 क्षेत्र में 1 के टेक्स्ट सर्विस कोटा पर आधारित है। इसलिए, कतार की गहराई और सबसे पुराने संदेश की उम्र निगरानी के लायक मीट्रिक हैं।
इस परीक्षण में, सभी दस्तावेज़ Amazon S3 पर एक साथ अपलोड किए गए थे, इसलिए दृश्यमान संदेशों की अनुमानित संख्या इसमें तीव्र वृद्धि हुई है और फिर धीमी गति से गिरावट आई है क्योंकि कोई नया दस्तावेज़ शामिल नहीं किया गया है। सबसे पुराने संदेश की अनुमानित आयु सभी संदेश संसाधित होने तक बढ़ता है। अमेज़ॅन एसक्यूएस संदेश प्रतिधारण अवधि 14 दिन निर्धारित है। बहुत लंबे समय तक चलने वाली बैकलॉग प्रोसेसिंग के लिए, जो 14 दिनों से अधिक की प्रोसेसिंग कर सकती है, प्रतिनिधि दस्तावेजों के एक छोटे उपसमूह को संसाधित करने से शुरू करें और निष्पादन की अवधि की निगरानी करके अनुमान लगाएं कि आप 14 दिनों से अधिक होने से पहले कितने दस्तावेज़ पास कर सकते हैं। अमेज़ॅन एसक्यूएस क्लाउडवॉच मेट्रिक्स दस्तावेज़ों के एक बड़े बैकलॉग को संसाधित करने के उपयोग के मामले में समान दिखते हैं, जिन्हें एक बार में निगल लिया जाता है और फिर पूरी तरह से संसाधित किया जाता है। यदि आपका उपयोग मामला दस्तावेज़ों का एक स्थिर प्रवाह है, तो दोनों मेट्रिक्स दृश्यमान संदेशों की अनुमानित संख्या और सबसे पुराने संदेश की अनुमानित आयु अधिक रैखिक होगा. आप बैकलॉग प्रोसेसिंग के साथ स्थिर लोड को मिलाने और अपनी प्रोसेसिंग आवश्यकताओं के अनुसार क्षमता आवंटित करने के लिए थ्रेशोल्ड पैरामीटर का भी उपयोग कर सकते हैं।
मॉनिटर करने के लिए एक अन्य मीट्रिक ओपनसर्च क्लस्टर का स्वास्थ्य है, जिसे आपको इसके अनुसार सेटअप करना चाहिए अमेज़ॅन ओपनसर्च सेवा के लिए परिचालन सर्वोत्तम अभ्यास. डिफ़ॉल्ट परिनियोजन m6g.large.search उदाहरणों का उपयोग करता है।
यहां ओपनसर्च क्लस्टर के लिए मुख्य प्रदर्शन संकेतक (KPI) का एक स्नैपशॉट दिया गया है। कोई त्रुटि नहीं, निरंतर अनुक्रमण डेटा दर और विलंबता।
स्टेप फ़ंक्शंस वर्कफ़्लो निष्पादन प्रत्येक व्यक्तिगत दस्तावेज़ के लिए प्रसंस्करण की स्थिति दिखाता है। यदि आप इसमें निष्पादन देखते हैं विफल रहे बताएं, फिर विवरण चुनें। निगरानी के लिए एक अच्छा मीट्रिक AWS है क्लाउडवॉच स्वचालित डैशबोर्ड स्टेप फ़ंक्शंस के लिए, जो कुछ को उजागर करता है चरण फ़ंक्शंस क्लाउडवॉच मेट्रिक्स.
इस AWS क्लाउडवॉच डैशबोर्ड ग्राफ़ में, आप समय के साथ सफल स्टेप फ़ंक्शंस निष्पादन देखते हैं।
और यह असफल निष्पादन को दर्शाता है। ये AWS कंसोल स्टेप फ़ंक्शंस अवलोकन के माध्यम से जांच करने लायक हैं।
निम्नलिखित स्क्रीनशॉट मूल फ़ाइल के 0 आकार के होने के कारण विफल निष्पादन का एक उदाहरण दिखाता है, जो समझ में आता है क्योंकि फ़ाइल में कोई सामग्री नहीं है और इसे संसाधित नहीं किया जा सकता है। विफल प्रक्रियाओं को फ़िल्टर करना और विफलताओं की कल्पना करना महत्वपूर्ण है, ताकि आप स्रोत दस्तावेज़ पर वापस जा सकें और मूल कारण को सत्यापित कर सकें।
अन्य विफलताओं में ऐसे दस्तावेज़ शामिल हो सकते हैं जो माइम प्रकार के नहीं हैं: एप्लिकेशन/पीडीएफ, छवि/पीएनजी, छवि/जेपीईजी, या छवि/टिफ़ क्योंकि अन्य दस्तावेज़ प्रकार अमेज़ॅन टेक्स्टट्रैक्ट द्वारा समर्थित नहीं हैं।
लागत
कार्यान्वयन के लिए उपयोग की जाने वाली AWS सेवाओं में 1,583,278 पृष्ठों को सम्मिलित करने की कुल लागत को विभाजित किया गया था। निम्नलिखित सूची अनुमानित संख्याओं के रूप में कार्य करती है, क्योंकि आपकी वास्तविक लागत और प्रसंस्करण अवधि दस्तावेज़ों के आकार, प्रति दस्तावेज़ पृष्ठों की संख्या, दस्तावेज़ों में जानकारी के घनत्व और AWS क्षेत्र के आधार पर भिन्न होती है। अमेज़ॅन डायनेमोडीबी $0.55, अमेज़ॅन एस3 $3.33, ओपनसर्च सर्विस $14.71, स्टेप फ़ंक्शंस $17.92, एडब्ल्यूएस लैम्ब्डा $28.95, और अमेज़ॅन टेक्सट्रैक्ट $1,849.97 की खपत कर रहा था। साथ ही, ध्यान रखें कि तैनात अमेज़ॅन ओपनसर्च सर्विस क्लस्टर का बिल घंटे के हिसाब से किया जाता है और समय की अवधि में चलने पर उच्च लागत जमा होगी।
संशोधनों
सबसे अधिक संभावना है, आप कार्यान्वयन को संशोधित करना चाहते हैं और अपने उपयोग के मामले और दस्तावेज़ों के लिए अनुकूलित करना चाहते हैं। कार्यशाला दस्तावेज़ों को बड़े पैमाने पर स्वचालित और संसाधित करने के लिए मशीन लर्निंग का उपयोग करें वास्तविक वर्कफ़्लो में हेरफेर करने, प्रवाह को बदलने और नए घटकों को जोड़ने के बारे में एक अच्छा अवलोकन प्रस्तुत करता है। ओपनसर्च इंडेक्स में कस्टम फ़ील्ड जोड़ने के लिए, देखें सेटमेटाडेटा का उपयोग करके वर्कफ़्लो में कार्य करें सेट-मेनिफ़ेस्ट-मेटा-डेटा-ओपनसर्च संदर्भ में मेटा-डेटा जोड़ने के लिए AWS लैम्ब्डा फ़ंक्शन, जिसे ओपनसर्च इंडेक्स में एक फ़ील्ड के रूप में जोड़ा जाएगा। कोई भी मेटा-डेटा जानकारी सूचकांक का हिस्सा बन जाएगी।
सफाई करना
यदि आपको अब उदाहरण संसाधनों की आवश्यकता नहीं है, तो निम्नलिखित कमांड का उपयोग करके भविष्य की लागतों से बचने के लिए उन्हें हटा दें:
के समान वातावरण में cdk deploy
आज्ञा। सावधान रहें कि यह OpenSearch क्लस्टर और सभी दस्तावेज़ों और Amazon S3 बकेट सहित सब कुछ हटा देता है। यदि आप उस जानकारी को बनाए रखना चाहते हैं, तो अपने Amazon S3 बकेट का बैकअप लें अपने ओपनसर्च क्लस्टर से एक इंडेक्स स्नैपशॉट बनाएं. यदि आपने कई फ़ाइलें संसाधित की हैं, तो आपको पहले AWS प्रबंधन कंसोल का उपयोग करके अमेज़ॅन S3 बकेट को खाली करना पड़ सकता है (यानी, यदि आप जानकारी बनाए रखना चाहते हैं तो बैकअप लेने या उन्हें एक अलग बकेट में सिंक करने के बाद), क्योंकि क्लीनअप फ़ंक्शन टाइम आउट कर सकता है और फिर AWS क्लाउडफ़ॉर्मेशन स्टैक को नष्ट कर सकता है।
निष्कर्ष
इस पोस्ट में, हमने आपको दिखाया कि ओपनसर्च इंडेक्स में बड़ी संख्या में दस्तावेज़ों को शामिल करने के लिए एक पूर्ण स्टैक समाधान कैसे तैनात किया जाए, जो खोज उपयोग के मामलों के लिए उपयोग करने के लिए तैयार हैं। कार्यान्वयन के व्यक्तिगत घटकों के साथ-साथ स्केलिंग विचार, लागत और संशोधन विकल्पों पर भी चर्चा की गई। सभी कोड GitHub पर OpenSource के रूप में उपलब्ध हैं आईडीपी सीडीके नमूने और के रूप में आईडीपी सीडीके निर्माण शुरुआत से अपना स्वयं का समाधान बनाने के लिए। अगले चरण के रूप में आप वर्कफ़्लो को संशोधित करना शुरू कर सकते हैं, खोज अनुक्रमणिका में दस्तावेज़ों में जानकारी जोड़ सकते हैं और अन्वेषण कर सकते हैं आईडीपी कार्यशाला. वर्तमान समाधान का विस्तार करने के लिए कृपया अपने अनुभव और विचारों पर नीचे टिप्पणी करें।
लेखक के बारे में
मार्टिन शैडे Amazon Textract टीम के साथ एक वरिष्ठ ML उत्पाद SA है। उनके पास इंटरनेट से संबंधित प्रौद्योगिकियों, इंजीनियरिंग और वास्तुकला समाधानों के साथ 20 से अधिक वर्षों का अनुभव है। वह 2014 में AWS में शामिल हुए, पहले AWS सेवाओं के सबसे कुशल और स्केलेबल उपयोग पर कुछ सबसे बड़े AWS ग्राहकों का मार्गदर्शन किया, और बाद में कंप्यूटर विज़न पर ध्यान केंद्रित करते हुए AI / ML पर ध्यान केंद्रित किया। वर्तमान में, वह दस्तावेजों से जानकारी निकालने के लिए जुनूनी है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- चार्टप्राइम. चार्टप्राइम के साथ अपने ट्रेडिंग गेम को उन्नत करें। यहां पहुंचें।
- BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/implement-smart-document-search-index-with-amazon-textract-and-amazon-opensearch/
- :हैस
- :है
- :नहीं
- :कहाँ
- $3
- $यूपी
- 1
- 10
- 100
- 11
- 12
- 13
- 14
- 15% तक
- 16
- 17
- 20
- 20 साल
- 200
- 2014
- 216
- 220
- 25
- 30
- 3000
- 32
- 33
- 7
- 700
- 8
- 820
- 84
- 9
- a
- About
- पहुँच
- सुलभ
- तक पहुँचने
- अनुसार
- लेखा
- संचय करें
- शुद्धता
- के पार
- गतिविधि
- वास्तविक
- जोड़ना
- जोड़ा
- जोड़ने
- जोड़ता है
- बाद
- के खिलाफ
- उम्र
- ऐ / एमएल
- सब
- आवंटित
- अनुमति देना
- भी
- वीरांगना
- अमेज़ॅन कॉग्निटो
- अमेज़न ओपन सर्च सर्विस
- अमेज़न टेक्सट्रेक
- अमेज़ॅन वेब सेवा
- an
- विश्लेषक
- और
- कोई
- एपीआई
- प्रकट होता है
- अनुमानित
- हैं
- चारों ओर
- AS
- At
- प्रमाणीकरण
- को स्वचालित रूप से
- स्वचालित
- स्वतः
- उपलब्ध
- औसत
- से बचने
- एडब्ल्यूएस
- एडब्ल्यूएस CloudFormation
- AWS लाम्बा
- एडब्ल्यूएस प्रबंधन कंसोल
- वापस
- बैकएण्ड
- बैकअप
- आधार
- आधारित
- BE
- क्योंकि
- बन
- से पहले
- जा रहा है
- नीचे
- BEST
- सर्वोत्तम प्रथाओं
- बेहतर
- खबरदार
- खंड
- के छात्रों
- निर्माण
- बटन
- by
- कॉल
- कर सकते हैं
- क्षमताओं
- क्षमता
- मामला
- मामलों
- कारण
- CD
- परिवर्तन
- बदल
- बदलना
- चेक
- चुनने
- वर्गीकरण
- बादल
- समूह
- कोड
- संग्रह
- जोड़ती
- टिप्पणी
- कंपनियों
- तुलना
- परकार
- प्रतियोगी
- घटकों
- कंप्यूटर
- Computer Vision
- अवधारणाओं
- समवर्ती
- विन्यास
- कॉन्फ़िगर किया गया
- जुड़ा हुआ
- विचार
- होते हैं
- कंसोल
- स्थिर
- निर्माण
- कंटेनर
- सामग्री
- प्रसंग
- जारी रखने के
- ठेके
- सही
- लागत
- लागत
- सका
- युग्मित
- आवरण
- बनाना
- बनाया
- बनाता है
- महत्वपूर्ण
- वर्तमान
- वर्तमान में
- रिवाज
- ग्राहक
- ग्राहक
- अनुकूलन
- अनुकूलित
- डैशबोर्ड
- डैशबोर्ड
- तिथि
- दिन
- सौदा
- अस्वीकार
- चूक
- परिभाषित
- परिभाषा
- दिखाना
- निर्भरता
- निर्भर करता है
- तैनात
- तैनात
- तैनाती
- गहराई
- को नष्ट
- विवरण
- विकास
- बातचीत
- विभिन्न
- डिजिटल
- डिजिटल परिवर्तन
- अन्य वायरल पोस्ट से
- चर्चा की
- प्रदर्शित
- डुबकी
- do
- डाक में काम करनेवाला मज़दूर
- दस्तावेज़
- दस्तावेजों
- किया
- सूखा
- दो
- अवधि
- e
- से प्रत्येक
- पूर्व
- Edge
- कुशल
- कुशलता
- प्रयास
- कर्मचारी
- सशक्त
- सक्षम
- अभियांत्रिकी
- विशाल
- समृद्ध
- समृद्ध
- दर्ज
- वातावरण
- युग
- त्रुटियाँ
- विशेष रूप से
- स्थापित
- आकलन
- और भी
- सब कुछ
- उदाहरण
- से अधिक
- से अधिक
- अतिरिक्त
- निष्पादन
- विस्तार
- अनुभव
- का पता लगाने
- उद्धरण
- विफल रहे
- फास्ट
- और तेज
- खेत
- फ़ील्ड
- आकृति
- पट्टिका
- फ़ाइलें
- फ़िल्टर
- अंतिम
- वित्तीय
- खोज
- अंत
- उंगलियों
- खत्म
- प्रथम
- पहला चरण
- पहली बार
- प्रवाह
- फोकस
- ध्यान केंद्रित
- का पालन करें
- पीछा किया
- निम्नलिखित
- के लिए
- प्रारूप
- से
- पूर्ण
- पूर्ण हो चुकी है
- पूरी तरह से
- समारोह
- कार्यों
- भविष्य
- सामान्य जानकारी
- उत्पन्न
- उत्पन्न करता है
- मिल रहा
- विशाल
- GitHub
- दी
- Go
- जा
- अच्छा
- ग्राफ
- गाइड
- साज़
- है
- होने
- he
- स्वास्थ्य
- मदद करता है
- हाई
- उच्चतर
- अत्यधिक
- घंटा
- घंटे
- कैसे
- How To
- तथापि
- एचटीएमएल
- HTTPS
- मानव
- मानव संसाधन
- i
- विचारों
- पहचानकर्ता
- पहचान करना
- पहचान
- आईडी
- if
- की छवि
- लागू करने के
- कार्यान्वयन
- कार्यान्वित
- आयात
- महत्वपूर्ण
- in
- शामिल
- सहित
- बढ़ना
- बढ़ जाती है
- अनुक्रमणिका
- अनुक्रमित
- संकेतक
- व्यक्ति
- करें-
- इंफ्रास्ट्रक्चर
- प्रारंभिक
- आरंभ
- निवेश
- अंतर्दृष्टि
- स्थापित
- उदाहरण
- एकीकृत
- बुद्धिमान
- बुद्धिमान दस्तावेज़ प्रसंस्करण
- में
- जांच कर रही
- लागू
- IT
- में शामिल हो गए
- यात्रा
- जेपीजी
- JSON
- रखना
- कुंजी
- बड़ा
- सबसे बड़ा
- पिछली बार
- विलंब
- बाद में
- जानें
- सीख रहा हूँ
- पुस्तकालय
- पसंद
- संभावित
- LINK
- लिंक
- सूची
- भार
- स्थान
- लॉग इन
- लॉग इन
- लंबा
- लंबे समय तक
- देखिए
- देख
- लग रहा है
- मशीन
- यंत्र अधिगम
- बनाया गया
- मुख्य
- बनाए रखना
- को बनाए रखने के
- बनाना
- बनाता है
- प्रबंध
- मैन्युअल
- बहुत
- मैच
- अधिकतम
- मई..
- me
- साधन
- मेन्यू
- message
- संदेश
- तरीकों
- मीट्रिक
- मेट्रिक्स
- हो सकता है
- मन
- मिनटों
- मिश्रण
- ML
- आधुनिक
- संशोधित
- मॉनिटर
- निगरानी
- अधिक
- अधिकांश
- पहाड़
- विभिन्न
- नाम
- नामांकित
- नेविगेट
- आवश्यकता
- की जरूरत है
- नया
- अगला
- नहीं
- अधिसूचना
- सूचनाएं
- उपन्यास
- संख्या
- संख्या
- of
- प्रस्ताव
- अक्सर
- सबसे पुराना
- on
- एक बार
- ONE
- खुला
- opensource
- अवसर
- अनुकूलित
- ऑप्शंस
- or
- आदेश
- संगठन
- मूल
- अन्य
- अन्यथा
- आउट
- उत्पादन
- के ऊपर
- सिंहावलोकन
- अपना
- पृष्ठ
- पृष्ठों
- समानांतर
- प्राचल
- भाग
- पास
- पासवर्ड
- पैटर्न
- पैटर्न उपयोग करें
- भुगतान
- पीडीएफ
- प्रति
- प्रदर्शन
- अवधि
- अनुमतियाँ
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- कृप्या अ
- बिन्दु
- अंक
- पूल
- संभव
- पद
- प्रथाओं
- तैयार
- आवश्यक शर्तें
- प्रस्तुत
- पहले से
- प्रक्रिया
- प्रसंस्कृत
- प्रक्रियाओं
- प्रसंस्करण
- उत्पादन
- एस्ट्रो मॉल
- प्रोग्रामिंग
- प्रस्तावित
- प्रदान करता है
- प्रकाशित
- उद्देश्य
- धक्का
- रखना
- डालता है
- अजगर
- त्वरित
- तेजी
- मूल्यांकन करें
- तैयार
- क्षेत्र
- रिपोर्ट
- कोष
- प्रतिनिधि
- अनुरोधों
- अपेक्षित
- आवश्यकताएँ
- संसाधन
- उपयुक्त संसाधन चुनें
- उत्तरदायी
- परिणाम
- परिणाम
- बनाए रखने के
- भूमिकाओं
- जड़
- रन
- दौड़ना
- SA
- वही
- स्केलेबल
- स्केल
- स्केलिंग
- खरोंच
- मूल
- Search
- खोज
- अनुभाग
- देखना
- मांग
- का चयन
- वरिष्ठ
- भावना
- भेजा
- कार्य करता है
- सेवा
- सेवाएँ
- सेट
- सेटिंग्स
- व्यवस्था
- चाहिए
- दिखाना
- पता चला
- दिखाता है
- समान
- सरल
- आकार
- धीमा
- छोटे
- स्मार्ट
- आशुचित्र
- So
- समाधान
- समाधान ढूंढे
- कुछ
- स्रोत
- विशिष्ट
- गति
- स्पिन
- विभाजित
- धुआँरा
- प्रारंभ
- शुरू
- शुरुआत में
- राज्य
- राज्य
- स्थिति
- स्थिर
- कदम
- कदम
- फिर भी
- भंडारण
- की दुकान
- भंडारण
- प्रस्तुत
- इसके बाद
- सफल
- ऐसा
- समर्थित
- समर्थन करता है
- निश्चित
- सिस्टम
- अनुरूप
- लेना
- लेता है
- ले जा
- कार्य
- कार्य
- टीम
- टेक्नोलॉजीज
- टेम्पलेट्स
- अवधि
- शर्तों
- परीक्षण
- परीक्षण किया
- टेक्स्ट
- कि
- RSI
- लेखाचित्र
- जानकारी
- स्रोत
- राज्य
- लेकिन हाल ही
- उन
- फिर
- वहाँ।
- इसलिये
- इन
- वे
- इसका
- हालांकि?
- द्वार
- यहाँ
- तक
- पहर
- बहुत समय लगेगा
- सेवा मेरे
- ले गया
- कुल
- परंपरागत
- परिवर्तन
- शुरू हो रहा
- ट्यूटोरियल
- दो
- टाइप
- प्रकार
- के अंतर्गत
- अभूतपूर्व
- जब तक
- अपलोड की गई
- us
- उपयोग
- उदाहरण
- प्रयुक्त
- उपयोगकर्ता
- उपयोगकर्ताओं
- का उपयोग करता है
- का उपयोग
- इस्तेमाल
- सत्यापित करें
- मूल्य
- संस्करण
- बहुत
- विचारों
- वर्जीनिया
- दृष्टि
- कल्पना
- आयतन
- संस्करणों
- करना चाहते हैं
- था
- मार्ग..
- we
- वेब
- वेब सेवाओं
- कुंआ
- थे
- क्या
- कब
- कौन कौन से
- मर्जी
- साथ में
- वर्कफ़्लो
- workflows
- कार्य
- कार्यशाला
- कार्यशालाओं
- लायक
- साल
- आप
- आपका
- जेफिरनेट