इंटेलीजेंट सर्च के साथ अपने Amazon S3 डेटा से इनसाइट अनलॉक करें | अमेज़न वेब सेवाएँ

इंटेलीजेंट सर्च के साथ अपने Amazon S3 डेटा से इनसाइट अनलॉक करें | अमेज़न वेब सेवाएँ

अमेज़ॅन केंद्र मशीन लर्निंग (एमएल) द्वारा संचालित एक बुद्धिमान खोज सेवा है। अमेज़ॅन केंद्र आपकी वेबसाइटों और एप्लिकेशन के लिए एंटरप्राइज़ खोज की पुनर्कल्पना करता है ताकि आपके कर्मचारी और ग्राहक आसानी से उस सामग्री को ढूंढ सकें, जिसे वे ढूंढ रहे हैं, भले ही वह आपके संगठन के भीतर कई स्थानों और सामग्री रिपॉजिटरी में बिखरी हुई हो। उत्तर देने और दस्तावेजों को रैंक करने के लिए एमएल द्वारा संचालित सबसे प्रासंगिक दस्तावेजों को खोजने के लिए कीवर्ड या प्राकृतिक भाषा के प्रश्नों का उपयोग किया जा सकता है। Amazon Kendra से डेटा इंडेक्स कर सकते हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3) या किसी तृतीय-पक्ष दस्तावेज़ रिपॉजिटरी से। Amazon S3 एक ऑब्जेक्ट स्टोरेज सेवा है जो स्केलेबिलिटी और उपलब्धता प्रदान करती है जहां आप बड़ी मात्रा में डेटा स्टोर कर सकते हैं, जिसमें उत्पाद मैनुअल, प्रोजेक्ट और शोध दस्तावेज़ और बहुत कुछ शामिल है।

इस पोस्ट में, आप सीख सकते हैं कि किसी दिए गए को कैसे तैनात किया जाए एडब्ल्यूएस CloudFormation Amazon S3 बकेट में अपने दस्तावेज़ों को अनुक्रमित करने के लिए टेम्प्लेट। टेम्पलेट इंडेक्स के लिए एक अमेज़ॅन केंद्र डेटा स्रोत बनाता है और आपकी आवश्यकताओं के अनुसार आपके डेटा स्रोत को सिंक्रनाइज़ करता है: ऑन-डिमांड, प्रति घंटा, दैनिक, साप्ताहिक या मासिक। AWS CloudFormation हमें बुनियादी ढांचे को कोड (IaC) के रूप में प्रावधान करने की अनुमति देता है ताकि आप संसाधनों के प्रबंधन में कम समय व्यतीत कर सकें, अपने बुनियादी ढांचे को जल्दी से दोहरा सकें, और बुनियादी ढांचे में परिवर्तनों को नियंत्रित और ट्रैक कर सकें।

समाधान का अवलोकन

CloudFormation टेम्प्लेट Amazon S3 के कनेक्शन के साथ Amazon Kendra डेटा स्रोत सेट करता है। टेम्प्लेट Amazon Kendra डेटा स्रोत सेवा के लिए भी एक भूमिका बनाता है। आप एक S3 बकेट, सिंक्रोनाइज़ेशन शेड्यूल और समावेशन/बहिष्करण पैटर्न निर्दिष्ट कर सकते हैं। जब तुल्यकालन कार्य समाप्त हो जाता है, तो आप खोज कंसोल के माध्यम से अनुक्रमित सामग्री खोज सकते हैं। निम्न आरेख इस वर्कफ़्लो को दिखाता है।

बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

यह पोस्ट आपको निम्न चरणों के लिए मार्गदर्शन करती है:

  1. प्रदान किए गए टेम्पलेट को तैनात करें।
  2. आपके द्वारा बनाए गए S3 बकेट में दस्तावेज़ अपलोड करें। यदि आप दस्तावेज़ों के साथ एक बकेट प्रदान करते हैं, तो आप इस चरण को छोड़ सकते हैं।
  3. इंडेक्स द्वारा डेटा स्रोत को क्रॉल करना समाप्त होने तक प्रतीक्षा करें।

.. पूर्वापेक्षाएँ

इस पूर्वाभ्यास के लिए, आपके पास निम्नलिखित शर्तें होनी चाहिए:

  • An AWS खाता जहां प्रस्तावित समाधान तैनात किया जा सकता है।
  • स्टैक में डेटा स्रोत संलग्न करने के लिए Amazon Kendra इंडेक्स।
  • अमेज़ॅन केंद्र इंडेक्स बनाने के लिए उपयोग किए जाने वाले दस्तावेज़ों का सेट। इस समाधान में, आप की एक संपीड़ित फ़ाइल का उपयोग कर रहे हैं एडब्ल्यूएस श्वेतपत्र.

एडब्ल्यूएस क्लाउडफॉर्मेशन के साथ समाधान तैनात करें

CloudFormation टेम्पलेट को परिनियोजित करने के लिए, निम्न चरणों को पूरा करें:

  1. चुनें
    बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

आपको AWS CloudFormation कंसोल पर पुनर्निर्देशित किया गया है।

  1. आप मापदंडों को संशोधित कर सकते हैं या डिफ़ॉल्ट मानों का उपयोग कर सकते हैं:
    • अमेज़ॅन केंद्र डेटा स्रोत का नाम स्वचालित रूप से स्टैक नाम और संबद्ध बकेट नाम का उपयोग करके सेट किया गया है।
    • के लिए केंद्र इंडेक्सआईडी, अमेज़ॅन केंद्र इंडेक्स आईडी दर्ज करें जहां आप डेटा स्रोत संलग्न करेंगे।
    • आप यह भी चुन सकते हैं कि आप डेटा स्रोत सिंक्रनाइज़ेशन का उपयोग करके कब चलाना चाहते हैं केंद्रसिंक शेड्यूल। डिफ़ॉल्ट रूप से, यह पर सेट है मांग पर.
    • के लिए S3बकेटनाम, आप या तो एक बाल्टी दर्ज कर सकते हैं जिसे आपने पहले ही बना लिया है या इसे खाली छोड़ दें। यदि आप इसे खाली छोड़ देते हैं, तो आपके लिए एक बाल्टी बन जाएगी। किसी भी तरह से, बकेट का उपयोग Amazon Kendra डेटा स्रोत के रूप में किया जाता है। इस पोस्ट के लिए हम इसे खाली छोड़ देते हैं।

बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

Amazon Kendra इंडेक्स से जुड़े Amazon Kendra डेटा स्रोत को तैनात करने में स्टैक को लगभग 5 मिनट लगते हैं।

  1. पर आउटपुट CloudFormation स्टैक का टैब, बनाई गई बकेट का नाम, डेटा स्रोत का नाम और आईडी कॉपी करें।

निर्मित स्टैक एक भूमिका को दर्शाता है: <stack-name>-KendraDataSourceRole. आपके द्वारा बनाए गए प्रत्येक डेटा स्रोत के लिए एक भूमिका परिनियोजित करना सबसे अच्छा अभ्यास है। यह भूमिका Amazon S3 बकेट से ऑब्जेक्ट प्राप्त करने के लिए Amazon Kendra इंडेक्स से फ़ाइलों को जोड़ने या निकालने के लिए Amazon Kendra डेटा स्रोत देती है।

S3 बकेट में फ़ाइलें अपलोड करें

Amazon Kendra कई दस्तावेज़ प्रकारों को संभाल सकता है, जैसे .html, .pdf, .csv, .json, .docx, और .ppt। आपके पास एकल इंडेक्स पर दस्तावेज़ों का संयोजन भी हो सकता है। उन दस्तावेज़ों में निहित पाठ को प्रदान किए गए Amazon Kendra इंडेक्स में अनुक्रमित किया गया है। आप 60 से अधिक पीडीएफ फाइलों का उपयोग करके सर्वोत्तम प्रथाओं, डेटाबेस, मशीन लर्निंग, सुरक्षा, और अधिक पर AWS विषयों पर कीवर्ड खोज सकते हैं। डाउनलोड. उदाहरण के लिए, यदि आप जानना चाहते हैं कि आप AWS श्वेतपत्र में कैशिंग के बारे में अधिक जानकारी कहाँ से प्राप्त कर सकते हैं, तो Amazon Kendra आपको डेटाबेस और सर्वोत्तम प्रथाओं से संबंधित दस्तावेज़ खोजने में मदद कर सकता है।

जब आप डाउनलोड करते हैं एडब्ल्यूएस श्वेतपत्र.ज़िप फ़ाइल और फ़ाइल को असम्पीडित करें, आप इन छह फ़ोल्डरों को देखते हैं: Best_Practices, Databases, General, Machine_Learning, Security, Well_Architected. इन फ़ोल्डरों को अपने S3 बकेट में अपलोड करें।

बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

Amazon Kendra डेटा स्रोत को सिंक्रोनाइज़ करें

अमेज़ॅन केंद्र डेटा स्रोत डेटा पूर्व-कॉन्फ़िगर किए गए शेड्यूल के आधार पर आपके डेटा को सिंक्रनाइज़ कर सकता है या मैन्युअल रूप से ऑन-डिमांड ट्रिगर किया जा सकता है। डिफ़ॉल्ट रूप से, CloudFormation टेम्प्लेट डेटा स्रोत को ऑन-डिमांड सिंक्रोनाइज़ेशन शेड्यूल को आवश्यकता के अनुसार मैन्युअल रूप से ट्रिगर करने के लिए कॉन्फ़िगर करता है।

AWS Amazon Kendra कंसोल से सिंक्रोनाइज़ेशन जॉब को मैन्युअल रूप से ट्रिगर करने के लिए, CloudFormation स्टैक परिनियोजन के भाग के रूप में उपयोग किए जाने वाले Amazon Kendra इंडेक्स पर नेविगेट करें, के तहत आँकड़ा प्रबंधन नेविगेशन फलक में, चुनें डाटा के स्रोत और फिर चुनें अभी सिंक करें. यह S3 बकेट को डेटा स्रोत के साथ सिंक्रनाइज़ करता है।

बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

जब अमेज़ॅन केंद्र डेटा स्रोत सिंक करना शुरू करता है, तो आपको यह देखना चाहिए वर्तमान सिंक स्थिति as सिंक्रनाइज़ किए जा रहे.

बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

जब डेटा स्रोत समाप्त हो जाता है, तो अंतिम सिंक स्थिति के रूप में प्रकट होता है सफल हुए और वर्तमान सिंक स्थिति as निष्क्रिय. अब आप अनुक्रमित सामग्री खोज सकते हैं।

बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

सिंक्रनाइज़ेशन शेड्यूल कॉन्फ़िगर करें

टेम्प्लेट आपको हर घंटे मिनट 0 पर शेड्यूल चलाने की अनुमति देता है, उदाहरण के लिए, 13:00, 14:00, या 15:00। आपके पास इसे प्रतिदिन 00:00 UTC पर चलाने का विकल्प भी है। साप्ताहिक सेटिंग सोमवार को 00:00 UTC पर चलती है, और मासिक सेटिंग महीने के पहले दिन 00:00 UTC पर चलती है।

Amazon Kendra डेटा स्रोत बनने के बाद शेड्यूल बदलने के लिए, पर क्रियाएँ मेनू, चुनें संपादित करें। के अंतर्गत सिंक सेटिंग्स कॉन्फ़िगर करें, आप पाते हैं सिंक नियम शेड्यूल अनुभाग।

बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

के अंतर्गत आवृत्ति, आप चुन सकते हैं घंटेवार, दैनिक, साप्ताहिक, मासिकया, रिवाज, जिनमें से सभी आपको अपने सिंक को मिनट तक शेड्यूल करने की अनुमति देते हैं।

बहिष्करण पैटर्न जोड़ें

प्रदान किया गया CloudFormation टेम्प्लेट आपको बहिष्करण पैटर्न जोड़ने की अनुमति देता है। डिफ़ॉल्ट रूप से, .png और .jpg फ़ाइलें इसमें जोड़ी जाएंगी बहिष्करण पैटर्न पैरामीटर। अतिरिक्त फ़ाइल स्वरूपों को अल्पविराम से अलग सूची के रूप में बहिष्करण पैटर्न में जोड़ा जा सकता है। इसी प्रकार, समावेशन पैटर्न एक समावेशन पैटर्न सेट करने के लिए पैरामीटर का उपयोग अल्पविराम सूची फ़ाइल स्वरूपों में किया जा सकता है। यदि आप एक समावेशन प्रतिमान प्रदान नहीं करते हैं, तो बहिष्करण पैरामीटर में शामिल फ़ाइलों को छोड़कर सभी फ़ाइलों को अनुक्रमित किया जाता है।

क्लीन अप

लागत से बचने के लिए, आप AWS CloudFormation कंसोल से स्टैक को हटा सकते हैं। पर ढेर पेज, आपके द्वारा बनाए गए स्टैक का चयन करें, चुनें मिटाना, और स्टैक को हटाने की पुष्टि करें।

बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

यदि आपने S3 बकेट प्रदान नहीं किया है, तो स्टैक एक बकेट बनाता है। यदि बाल्टी खाली है, तो यह स्वचालित रूप से हटा दी जाती है। अन्यथा, आपको फ़ोल्डर को खाली करना होगा और इसे मैन्युअल रूप से हटाना होगा। यदि आपने कोई बकेट प्रदान किया है, भले ही वह खाली हो, तो उसे हटाया नहीं जाएगा. Amazon Kendra इंडेक्स को हटाया नहीं जाएगा। स्टैक द्वारा बनाए गए केवल Amazon Kendra डेटा स्रोत को हटा दिया जाएगा।

निष्कर्ष

इस पोस्ट में, हमने आपके टेक्स्ट दस्तावेज़ों को S3 बकेट पर आपके Amazon Kendra इंडेक्स में आसानी से सिंक्रोनाइज़ करने के लिए एक CloudFormation टेम्प्लेट प्रदान किया है। यदि आपके पास कई S3 बकेट हैं जिन्हें आप अनुक्रमित करना चाहते हैं तो यह समाधान मददगार है क्योंकि आप कुछ क्लिक के साथ एक सुसंगत और दोहराए जाने वाले तरीके से दस्तावेज़ों को क्वेरी करने के लिए सभी आवश्यक घटक बना सकते हैं। आप यह भी देख सकते हैं कि Amazon Kendra में इमेज-आधारित टेक्स्ट दस्तावेज़ों को कैसे हैंडल किया जा सकता है। विशिष्ट शेड्यूल पैटर्न के बारे में अधिक जानने के लिए देखें नियमों के लिए अनुसूची अभिव्यक्तियाँ.

एक टिप्पणी छोड़ें और निम्नलिखित में Amazon Kendra इंडेक्स निर्माण के बारे में और जानें अमेज़न केंद्र अनिवार्य + कार्यशाला.

इस पोस्ट के लिए उदाहरण कोड बनाने और सामग्री को संकलित करने में मदद के लिए जोस मौरिसियो मणि यानेज़ का विशेष धन्यवाद।


लेखक के बारे में

बुद्धिमान खोज के साथ अपने अमेज़न S3 डेटा से अंतर्दृष्टि अनलॉक करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.राजेश कुमार रवि Amazon Web Services में एक AI/ML स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जिसे Amazon Kendra और जनरेटिव AI के साथ इंटेलिजेंट डॉक्यूमेंट सर्च में विशेषज्ञता हासिल है। वह एक निर्माता और समस्या समाधानकर्ता है, और नए विचारों के विकास में योगदान देता है। वह घूमने का आनंद लेता है और काम के बाहर छोटी लंबी पैदल यात्रा पर जाना पसंद करता है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

कैसे स्पोर्टराडार ने प्रदर्शन और दक्षता बढ़ाने के लिए प्रोडक्शन-स्केल एमएल प्लेटफॉर्म बनाने के लिए डीप जावा लाइब्रेरी का इस्तेमाल किया

स्रोत नोड: 1827320
समय टिकट: अप्रैल 19, 2023

अमेज़ॅन सेजमेकर भू-स्थानिक क्षमताओं का उपयोग करके अंतर्दृष्टि प्राप्त करने के लिए गतिशीलता डेटा का उपयोग करें अमेज़न वेब सेवाएँ

स्रोत नोड: 1938140
समय टिकट: जनवरी 17, 2024