फ्री-फॉर्म टेक्स्ट दस्तावेज़ों के भंडार में अंतर्दृष्टि की खोज करना भूसे के ढेर में सुई ढूंढने जैसा हो सकता है। दस्तावेजों को पार्स करने के लिए शब्द गणना या अन्य बुनियादी विश्लेषण का उपयोग करना एक पारंपरिक दृष्टिकोण हो सकता है, लेकिन अमेज़ॅन एआई और मशीन लर्निंग (एमएल) टूल की शक्ति से, हम सामग्री की गहरी समझ हासिल कर सकते हैं।
Amazon Comprehend एक पूर्णतः प्रबंधित सेवा है जो दस्तावेज़ों की सामग्री के बारे में जानकारी निकालने के लिए प्राकृतिक भाषा प्रसंस्करण (एनएलपी) का उपयोग करती है। अमेज़ॅन कॉम्प्रिहेंड किसी दस्तावेज़ में संस्थाओं, मुख्य वाक्यांशों, भावनाओं, विषयों और कस्टम तत्वों को पहचानकर अंतर्दृष्टि विकसित करता है। अमेज़ॅन कॉम्प्रिहेंड दस्तावेज़ संरचना और इकाई संबंधों को समझने के आधार पर नई अंतर्दृष्टि बना सकता है। उदाहरण के लिए, अमेज़ॅन कॉम्प्रिहेंड के साथ, आप मुख्य वाक्यांशों के लिए संपूर्ण दस्तावेज़ भंडार को स्कैन कर सकते हैं।
अमेज़ॅन कॉम्प्रिहेंड गैर-एमएल विशेषज्ञों को ऐसे कार्य आसानी से करने देता है जिनमें आमतौर पर घंटों का समय लगता है। अमेज़ॅन कॉम्प्रिहेंड आपके स्वयं के मॉडल को साफ करने, बनाने और प्रशिक्षित करने में लगने वाले बहुत से समय को समाप्त कर देता है। एनएलपी या किसी अन्य डोमेन में गहन कस्टम मॉडल बनाने के लिए, अमेज़न SageMaker यदि आप चाहें तो आपको अधिक पारंपरिक एमएल वर्कफ़्लो में मॉडल बनाने, प्रशिक्षित करने और तैनात करने में सक्षम बनाता है।
इस पोस्ट में, हम दस्तावेज़ों के भंडार से नई अंतर्दृष्टि का विश्लेषण करने और निकालने के लिए अमेज़ॅन कॉम्प्रिहेंड और अन्य एडब्ल्यूएस सेवाओं का उपयोग करते हैं। फिर, हम उपयोग करते हैं अमेज़न क्विकसाइट थीम या रुझानों को आसानी से पहचानने के लिए एक सरल लेकिन शक्तिशाली वर्ड क्लाउड विज़ुअल उत्पन्न करना।
समाधान का अवलोकन
निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।
आरंभ करने के लिए, हम विश्लेषण किए जाने वाले डेटा को इकट्ठा करते हैं और उसे एक में लोड करते हैं अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) AWS खाते में बकेट। इस उदाहरण में, हम टेक्स्ट स्वरूपित फ़ाइलों का उपयोग करते हैं। इसके बाद डेटा का विश्लेषण Amazon Comprehend द्वारा किया जाता है। अमेज़ॅन कॉम्प्रिहेंड एक JSON स्वरूपित आउटपुट बनाता है जिसे डेटाबेस प्रारूप में परिवर्तित और संसाधित करने की आवश्यकता होती है एडब्ल्यूएस गोंद. हम डेटा को सत्यापित करते हैं और विशिष्ट स्वरूपित डेटा तालिकाओं का उपयोग करके निकालते हैं अमेज़न एथेना वर्ड क्लाउड का उपयोग करके क्विकसाइट विश्लेषण के लिए। विज़ुअलाइज़ेशन के बारे में अधिक जानकारी के लिए, देखें Amazon QuickSight में डेटा विज़ुअलाइज़ करना.
.. पूर्वापेक्षाएँ
इस पूर्वाभ्यास के लिए, आपके पास निम्नलिखित शर्तें होनी चाहिए:
डेटा को S3 बकेट में अपलोड करें
अपना डेटा S3 बकेट में अपलोड करें। इस पोस्ट के लिए, हम इनपुट फ़ाइल के रूप में अमेरिकी संविधान के UTF-8 स्वरूपित पाठ का उपयोग करते हैं। फिर आप डेटा का विश्लेषण करने और विज़ुअलाइज़ेशन बनाने के लिए तैयार हैं।
Amazon Comprehend का उपयोग करके डेटा का विश्लेषण करें
कई प्रकार की टेक्स्ट-आधारित और छवि जानकारी हैं जिन्हें Amazon Comprehend का उपयोग करके संसाधित किया जा सकता है। टेक्स्ट फ़ाइलों के अतिरिक्त, आप इसका उपयोग कर सकते हैं एक-चरणीय वर्गीकरण और इकाई पहचान के लिए अमेज़ॅन कॉम्प्रिहेंडिंग छवि फ़ाइलों, पीडीएफ फाइलों और माइक्रोसॉफ्ट वर्ड फाइलों को इनपुट के रूप में स्वीकार करने के लिए, जिनकी इस पोस्ट में चर्चा नहीं की गई है।
अपने डेटा का विश्लेषण करने के लिए, निम्नलिखित चरणों को पूरा करें:
- Amazon Comprehend कंसोल पर, चुनें विश्लेषण नौकरियों नेविगेशन फलक में
- चुनें विश्लेषण कार्य बनाएँ.
- अपनी नौकरी के लिए एक नाम दर्ज करें।
- के लिए विश्लेषण प्रकार, चुनें महत्वपूर्ण वाक्यांश.
- के लिए भाषाचुनें अंग्रेज़ी.
- के लिए इनपुट डेटा स्थान, आपके द्वारा बनाए गए फ़ोल्डर को एक शर्त के रूप में निर्दिष्ट करें।
- के लिए आउटपुट डेटा स्थान, आपके द्वारा बनाए गए फ़ोल्डर को एक शर्त के रूप में निर्दिष्ट करें।
- चुनें एक IAM भूमिका बनाएँ.
- भूमिका के नाम के लिए एक प्रत्यय दर्ज करें.
- चुनें नौकरी पैदा करो.
कार्य चलेगा और स्थिति प्रदर्शित होगी विश्लेषण नौकरियों इस पृष्ठ पर ज़ूम कई वीडियो ट्यूटोरियल और अन्य साहायक साधन प्रदान करता है।
विश्लेषण कार्य पूरा होने तक प्रतीक्षा करें. Amazon Comprehend एक फ़ाइल बनाएगा और उसे आपके द्वारा प्रदान किए गए आउटपुट डेटा फ़ोल्डर में रखेगा। फ़ाइल .gz या GZIP प्रारूप में है.
इस फ़ाइल को डाउनलोड करने और गैर-संपीड़ित प्रारूप में परिवर्तित करने की आवश्यकता है। आप Amazon S3 कंसोल का उपयोग करके डेटा फ़ोल्डर या S3 बकेट से किसी ऑब्जेक्ट को डाउनलोड कर सकते हैं।
- Amazon S3 कंसोल पर, ऑब्जेक्ट चुनें और चुनें डाउनलोड. यदि आप ऑब्जेक्ट को किसी विशिष्ट फ़ोल्डर में डाउनलोड करना चाहते हैं, तो चुनें डाउनलोड पर क्रियाएँ मेनू.
- फ़ाइल को अपने स्थानीय कंप्यूटर पर डाउनलोड करने के बाद, ज़िपित फ़ाइल खोलें और इसे एक असंपीड़ित फ़ाइल के रूप में सहेजें।
AWS ग्लू क्रॉलर द्वारा इसे संसाधित करने से पहले असम्पीडित फ़ाइल को आउटपुट फ़ोल्डर में अपलोड किया जाना चाहिए। इस उदाहरण के लिए, हम असम्पीडित फ़ाइल को उसी आउटपुट फ़ोल्डर में अपलोड करते हैं जिसका उपयोग हम बाद के चरणों में करते हैं।
- Amazon S3 कंसोल पर, अपने S3 बकेट पर जाएँ और चुनें अपलोड.
- चुनें फाइलें जोड़ो.
- अपने स्थानीय कंप्यूटर से असम्पीडित फ़ाइलें चुनें।
- चुनें अपलोड.
फ़ाइल अपलोड करने के बाद, मूल ज़िपित फ़ाइल हटा दें।
- Amazon S3 कंसोल पर, बकेट चुनें और चुनें मिटाना.
- टेक्स्ट बॉक्स में फ़ाइल नाम दर्ज करके फ़ाइल को स्थायी रूप से हटाने के लिए फ़ाइल नाम की पुष्टि करें।
- चुनें वस्तुओं को हटाएं.
इससे आउटपुट फ़ोल्डर में एक फ़ाइल शेष रह जाएगी: असंपीड़ित फ़ाइल।
AWS ग्लू का उपयोग करके JSON डेटा को तालिका प्रारूप में बदलें
इस चरण में, आप एथेना में इनपुट के रूप में उपयोग करने के लिए अमेज़ॅन कॉम्प्रिहेंड आउटपुट तैयार करते हैं। अमेज़ॅन कॉम्प्रिहेंड आउटपुट JSON प्रारूप में है। आप JSON को एक डेटाबेस संरचना में परिवर्तित करने के लिए AWS ग्लू का उपयोग कर सकते हैं जिसे अंततः QuickSight द्वारा पढ़ा जा सके।
- एडब्ल्यूएस गोंद कंसोल पर, चुनें क्रौलर नेविगेशन फलक में
- चुनें क्रॉलर बनाएं.
- अपने क्रॉलर के लिए एक नाम दर्ज करें.
- चुनें अगला.
- के लिए क्या आपका डेटा पहले ही ग्लू टेबल में मैप किया जा चुका है, चुनते हैं अभी नहीं.
- एक डेटा स्रोत जोड़ें.
- के लिए S3 पथ, Amazon Comprehend आउटपुट डेटा फ़ोल्डर का स्थान दर्ज करें।
अनुगामी जोड़ना सुनिश्चित करें /
पथ के नाम पर. AWS ग्लू सभी फ़ाइलों के लिए फ़ोल्डर पथ खोजेगा।
- चुनते हैं सभी उप-फ़ोल्डरों को क्रॉल करें.
- चुनें एक S3 डेटा स्रोत जोड़ें.
- कोई नया बनाएं AWS पहचान और अभिगम प्रबंधन क्रॉलर के लिए (IAM) भूमिका।
- IAM भूमिका के लिए एक नाम दर्ज करें.
- चुनें चुनी गई IAM भूमिका को अद्यतन करें यह सुनिश्चित करने के लिए कि नई भूमिका क्रॉलर को सौंपी गई है।
- चुनें अगला आउटपुट (डेटाबेस) जानकारी दर्ज करने के लिए।
- चुनें डेटाबेस जोड़ें.
- एक डेटाबेस नाम दर्ज करें.
- चुनें अगला.
- चुनें क्रॉलर बनाएं.
- चुनें क्रॉलर चलाएं क्रॉलर चलाने के लिए.
आप AWS ग्लू कंसोल पर क्रॉलर स्थिति की निगरानी कर सकते हैं।
क्विकसाइट के लिए टेबल तैयार करने के लिए एथेना का उपयोग करें
एथेना एक प्रारूप प्रदान करने के लिए बनाए गए AWS ग्लू क्रॉलर द्वारा बनाए गए डेटाबेस तालिकाओं से डेटा निकालेगी जिसका उपयोग क्विकसाइट क्लाउड शब्द बनाने के लिए करेगा।
- एथेना कंसोल पर, चुनें प्रश्न-संपादक नेविगेशन फलक में
- के लिए डेटा स्रोत, चुनें AwsDataCatalog.
- के लिए डाटाबेस, क्रॉलर द्वारा बनाया गया डेटाबेस चुनें।
क्विकसाइट के लिए संगत तालिका बनाने के लिए, डेटा को सरणियों से अननेस्ट किया जाना चाहिए।
- पहला कदम प्रासंगिक अमेज़ॅन कॉम्प्रिहेंशन डेटा के साथ एक अस्थायी डेटाबेस बनाना है:
- निम्नलिखित कथन वाक्यांशों की आवृत्ति के आधार पर कम से कम तीन शब्दों और समूहों के वाक्यांशों तक सीमित है:
आउटपुट देखने के लिए क्विकसाइट का उपयोग करें
अंत में, आप विश्लेषण से विज़ुअल आउटपुट बना सकते हैं।
- QuickSight कंसोल पर, चुनें नया विश्लेषण.
- चुनें नया डेटासेट.
- के लिए डेटासेट बनाएं, चुनें नए डेटा स्रोतों से.
- चुनें एथेना डेटा स्रोत के रूप में।
- डेटा स्रोत के लिए एक नाम दर्ज करें और चुनें डेटा स्रोत बनाएँ.
- चुनें कल्पना.
सुनिश्चित करें कि क्विकसाइट के पास S3 बकेट तक पहुंच है जहां एथेना टेबल संग्रहीत हैं।
- क्विकसाइट कंसोल पर, उपयोगकर्ता प्रोफ़ाइल आइकन चुनें और चुनें QuickSight प्रबंधित करें.
- चुनें सुरक्षा और अनुमति.
- अनुभाग की तलाश करें एडब्ल्यूएस सेवाओं के लिए त्वरित पहुंच.
AWS सेवाओं तक पहुंच को कॉन्फ़िगर करके, QuickSight उन सेवाओं में डेटा तक पहुंच सकता है। विकल्पों के माध्यम से उपयोगकर्ताओं और समूहों द्वारा पहुंच को नियंत्रित किया जा सकता है।
- सत्यापित करें कि Amazon S3 को एक्सेस प्रदान किया गया है।
अब आप क्लाउड शब्द बना सकते हैं.
- नीचे बादल शब्द चुनें दृश्य प्रकार.
- टेक्स्ट को यहां खींचें समूह द्वारा और गिनें आकार.
संपादन विकल्पों तक पहुंचने के लिए विज़ुअलाइज़ेशन में विकल्प मेनू (तीन बिंदु) चुनें। उदाहरण के लिए, हो सकता है कि आप डिस्प्ले से "अन्य" शब्द छिपाना चाहें। आप अपने दृश्य के लिए शीर्षक और उपशीर्षक जैसे आइटम भी संपादित कर सकते हैं। क्लाउड शब्द को पीडीएफ के रूप में डाउनलोड करने के लिए चुनें डाउनलोड क्विकसाइट टूलबार पर.
क्लीन अप
चल रहे शुल्कों से बचने के लिए, उनके संबंधित सेवा कंसोल पर प्रावधानित किसी भी अप्रयुक्त डेटा और प्रक्रियाओं या संसाधनों को हटा दें।
निष्कर्ष
अमेज़ॅन कॉम्प्रिहेंड दस्तावेज़ों की सामग्री के बारे में जानकारी निकालने के लिए एनएलपी का उपयोग करता है। यह दस्तावेज़ में संस्थाओं, प्रमुख वाक्यांशों, भाषा, भावनाओं और अन्य सामान्य तत्वों को पहचानकर अंतर्दृष्टि विकसित करता है। दस्तावेज़ों की संरचना को समझने के आधार पर नए उत्पाद बनाने के लिए आप Amazon Comprehend का उपयोग कर सकते हैं। उदाहरण के लिए, अमेज़ॅन कॉम्प्रिहेंड के साथ, आप मुख्य वाक्यांशों के लिए संपूर्ण दस्तावेज़ भंडार को स्कैन कर सकते हैं।
इस पोस्ट में डेटा को विज़ुअलाइज़ करने के लिए AWS टूल और क्विकसाइट का उपयोग करके Amazon Comprehend से टेक्स्ट सामग्री विश्लेषण को विज़ुअलाइज़ करने के लिए वर्ड क्लाउड बनाने के चरणों का वर्णन किया गया है।
आइए टिप्पणी अनुभाग के माध्यम से संपर्क में रहें!
लेखक के बारे में
क्रिस गेडमैन अमेज़ॅन वेब सर्विसेज में रिटेल और सीपीजी के लिए यूएस ईस्ट सेल्स लीडर हैं। जब वह काम नहीं करता है, तो वह अपने दोस्तों और परिवार के साथ समय बिताना पसंद करता है, खासकर गर्मियों में केप कॉड पर। क्रिस एक अस्थायी रूप से सेवानिवृत्त निंजा योद्धा है लेकिन उसे अभी अपने दोनों बेटों को देखना और प्रशिक्षण देना पसंद है।
क्लार्क लेफ़ेवोर अमेज़ॅन वेब सर्विसेज में एक सॉल्यूशन आर्किटेक्ट लीडर है, जो पूर्वी क्षेत्र में एंटरप्राइज़ ग्राहकों का समर्थन करता है। क्लार्क न्यू इंग्लैंड में रहते हैं और रसोई में व्यंजन बनाने में समय बिताना पसंद करते हैं।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- चार्टप्राइम. चार्टप्राइम के साथ अपने ट्रेडिंग गेम को उन्नत करें। यहां पहुंचें।
- BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/visualize-an-amazon-comprehend-analysis-with-a-word-cloud-in-amazon-quicksight/
- :हैस
- :है
- :नहीं
- :कहाँ
- 1
- 10
- 100
- 11
- 12
- 13
- 17
- 23
- 500
- 7
- 8
- 9
- a
- About
- स्वीकार करें
- पहुँच
- लेखा
- जोड़ना
- इसके अलावा
- AI
- सब
- पहले ही
- भी
- वीरांगना
- Amazon Comprehend
- अमेज़न क्विकसाइट
- अमेज़ॅन वेब सेवा
- an
- विश्लेषण
- विश्लेषण करें
- विश्लेषण किया
- और
- कोई
- दृष्टिकोण
- स्थापत्य
- हैं
- AS
- सौंपा
- At
- से बचने
- एडब्ल्यूएस
- एडब्ल्यूएस गोंद
- आधारित
- बुनियादी
- BE
- से पहले
- शुरू करना
- मुक्केबाज़ी
- निर्माण
- इमारत
- लेकिन
- by
- कर सकते हैं
- प्रभार
- चुनें
- करने के लिए चुना
- वर्गीकरण
- बादल
- कोचिंग
- टिप्पणियाँ
- सामान्य
- संगत
- पूरा
- समझना
- कंप्यूटर
- कंसोल
- संविधान
- सामग्री
- नियंत्रित
- परम्परागत
- बदलना
- परिवर्तित
- गिनती
- CPG
- क्रॉलर
- बनाना
- बनाया
- बनाता है
- क्रॉस
- रिवाज
- ग्राहक
- तिथि
- डाटाबेस
- और गहरा
- तैनात
- वर्णित
- वांछित
- विकसित
- चर्चा की
- डिस्प्ले
- दिखाया गया है
- do
- दस्तावेज़
- दस्तावेजों
- डोमेन
- डाउनलोड
- आसानी
- पूर्व
- तत्व
- को हटा देता है
- सक्षम बनाता है
- इंगलैंड
- दर्ज
- में प्रवेश
- उद्यम
- संपूर्ण
- संस्थाओं
- सत्ता
- विशेष रूप से
- उदाहरण
- विशेषज्ञों
- उद्धरण
- परिवार
- पट्टिका
- फ़ाइलें
- खोज
- प्रथम
- निम्नलिखित
- के लिए
- प्रारूप
- आवृत्ति
- मित्रों
- से
- पूरी तरह से
- इकट्ठा
- उत्पन्न
- दी गई
- समूह
- समूह की
- है
- he
- छिपाना
- उसके
- घंटे
- एचटीएमएल
- http
- HTTPS
- नायक
- पहचान
- if
- दिखाता है
- की छवि
- in
- करें-
- निवेश
- अंतर्दृष्टि
- में
- IT
- आइटम
- काम
- में शामिल होने
- जेपीजी
- JSON
- कुंजी
- भाषा
- बाद में
- नेता
- सीख रहा हूँ
- कम से कम
- छोड़ना
- चलें
- पसंद
- सीमाएं
- भार
- स्थानीय
- स्थान
- प्यार करता है
- मशीन
- यंत्र अधिगम
- कामयाब
- बहुत
- मेन्यू
- माइक्रोसॉफ्ट
- हो सकता है
- ML
- आदर्श
- मॉडल
- मॉनिटर
- अधिक
- बहुत
- चाहिए
- नाम
- प्राकृतिक
- प्राकृतिक भाषा संसाधन
- नेविगेट करें
- पथ प्रदर्शन
- जरूरत
- की जरूरत है
- नया
- नए उत्पादों
- निंजा
- NLP
- सामान्य रूप से
- अभी
- वस्तु
- of
- on
- ONE
- चल रहे
- खुला
- ऑप्शंस
- or
- आदेश
- मूल
- अन्य
- उत्पादन
- अपना
- पृष्ठ
- फलक
- पथ
- पीडीएफ
- हमेशा
- मुहावरों
- जगह
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- पद
- बिजली
- शक्तिशाली
- तैयार करना
- आवश्यक शर्तें
- प्रक्रिया
- प्रसंस्कृत
- प्रक्रियाओं
- प्रसंस्करण
- उत्पाद
- प्रोफाइल
- प्रदान करना
- बशर्ते
- पढ़ना
- तैयार
- मान्यता देना
- उल्लेख
- क्षेत्र
- रिश्ते
- प्रासंगिक
- शेष
- कोष
- उपयुक्त संसाधन चुनें
- कि
- खुदरा
- भूमिका
- रन
- विक्रय
- वही
- सहेजें
- स्कैन
- स्कोर
- Search
- अनुभाग
- भावुकता
- भावनाओं
- सेवा
- सेवाएँ
- चाहिए
- सरल
- समाधान
- समाधान ढूंढे
- स्रोत
- विशिष्ट
- खर्च
- Spot
- कथन
- स्थिति
- रहना
- कदम
- कदम
- भंडारण
- संग्रहित
- संरचना
- ऐसा
- सहायक
- निश्चित
- तालिका
- लेना
- कार्य
- अस्थायी
- अवधि
- टेक्स्ट
- कि
- RSI
- लेकिन हाल ही
- विषयों
- फिर
- इसका
- उन
- तीन
- यहाँ
- पहर
- शीर्षक
- सेवा मेरे
- उपकरण
- स्पर्श
- परंपरागत
- अनुगामी
- रेलगाड़ी
- तब्दील
- रुझान
- दो
- प्रकार
- अंत में
- के अंतर्गत
- समझ
- अप्रयुक्त
- अपलोड की गई
- us
- उपयोग
- प्रयुक्त
- उपयोगकर्ता
- उपयोगकर्ताओं
- का उपयोग करता है
- का उपयोग
- सत्यापित
- के माध्यम से
- दृश्य
- कल्पना
- walkthrough
- करना चाहते हैं
- देख
- we
- वेब
- वेब सेवाओं
- कब
- कौन कौन से
- मर्जी
- साथ में
- शब्द
- शब्द
- वर्कफ़्लो
- काम कर रहे
- अभी तक
- आप
- आपका
- जेफिरनेट