अमेज़ॅन कॉम्प्रिहेंशन कस्टम वर्गीकरण (भाग I) के साथ एक वर्गीकरण पाइपलाइन बनाएं

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

"टेक्स्ट, ऑडियो, सोशल मीडिया और अन्य असंरचित स्रोतों में बंद डेटा उन कंपनियों के लिए प्रतिस्पर्धात्मक लाभ हो सकता है जो इसका उपयोग करना जानते हैं"

ए में केवल 18% संगठन डेलॉइट द्वारा 2019 सर्वेक्षण असंरचित डेटा का लाभ उठाने में सक्षम होने की सूचना दी गई। 80% और 90% के बीच अधिकांश डेटा, असंरचित डेटा है। यह एक बड़ा अप्रयुक्त संसाधन है जिसमें व्यवसायों को प्रतिस्पर्धात्मक बढ़त देने की क्षमता है यदि वे इसका उपयोग करना सीख सकें। इस डेटा से अंतर्दृष्टि प्राप्त करना मुश्किल हो सकता है, खासकर यदि इसे वर्गीकृत करने, टैग करने या लेबल करने के प्रयासों की आवश्यकता हो। Amazon Comprehend इस स्थिति में कस्टम वर्गीकरण उपयोगी हो सकता है। Amazon Comprehend एक प्राकृतिक-भाषा प्रसंस्करण (एनएलपी) सेवा है जो पाठ में मूल्यवान अंतर्दृष्टि और कनेक्शन को उजागर करने के लिए मशीन लर्निंग का उपयोग करती है।

दस्तावेज़ वर्गीकरण या वर्गीकरण के व्यावसायिक डोमेन में महत्वपूर्ण लाभ हैं -

बेहतर खोज और पुनर्प्राप्ति - दस्तावेज़ों को प्रासंगिक विषयों या श्रेणियों में वर्गीकृत करने से, उपयोगकर्ताओं के लिए उन दस्तावेज़ों को खोजना और पुनर्प्राप्त करना बहुत आसान हो जाता है जिनकी उन्हें ज़रूरत है। वे परिणामों को सीमित करने के लिए विशिष्ट श्रेणियों में खोज कर सकते हैं।
ज्ञान प्रबंधन - दस्तावेज़ों को व्यवस्थित तरीके से वर्गीकृत करने से किसी संगठन के ज्ञान आधार को व्यवस्थित करने में मदद मिलती है। इससे प्रासंगिक जानकारी का पता लगाना और संबंधित सामग्री के बीच संबंध देखना आसान हो जाता है।
सुव्यवस्थित वर्कफ़्लोज़ - स्वचालित दस्तावेज़ छँटाई कई व्यावसायिक प्रक्रियाओं जैसे चालान प्रसंस्करण, ग्राहक सहायता, या नियामक अनुपालन को सुव्यवस्थित करने में मदद कर सकती है। दस्तावेज़ स्वचालित रूप से सही लोगों या वर्कफ़्लो तक भेजे जा सकते हैं।
लागत और समय की बचत - मैन्युअल दस्तावेज़ वर्गीकरण थकाऊ, समय लेने वाला और महंगा है। एआई तकनीक इस सांसारिक कार्य को संभाल सकती है और बहुत कम लागत पर कम समय में हजारों दस्तावेजों को वर्गीकृत कर सकती है।
अंतर्दृष्टि पीढ़ी - दस्तावेज़ श्रेणियों में रुझानों का विश्लेषण उपयोगी व्यावसायिक अंतर्दृष्टि प्रदान कर सकता है। उदाहरण के लिए, किसी उत्पाद श्रेणी में ग्राहकों की शिकायतों में वृद्धि कुछ मुद्दों का संकेत दे सकती है जिन्हें संबोधित करने की आवश्यकता है।
शासन और नीति प्रवर्तन - दस्तावेज़ वर्गीकरण नियम स्थापित करने से यह सुनिश्चित करने में मदद मिलती है कि दस्तावेज़ों को संगठन की नीतियों और शासन मानकों के अनुसार सही ढंग से वर्गीकृत किया गया है। यह बेहतर निगरानी और ऑडिटिंग की अनुमति देता है।
व्यक्तिगत अनुभव - वेबसाइट सामग्री जैसे संदर्भों में, दस्तावेज़ वर्गीकरण उपयोगकर्ताओं को उनके ब्राउज़िंग व्यवहार से निर्धारित उनकी रुचियों और प्राथमिकताओं के आधार पर अनुकूलित सामग्री दिखाने की अनुमति देता है। इससे उपयोगकर्ता सहभागिता बढ़ सकती है.

एक विशिष्ट वर्गीकरण मशीन लर्निंग मॉडल विकसित करने की जटिलता डेटा गुणवत्ता, एल्गोरिदम, स्केलेबिलिटी और डोमेन ज्ञान जैसे विभिन्न पहलुओं के आधार पर भिन्न होती है। एक स्पष्ट समस्या परिभाषा, स्वच्छ और प्रासंगिक डेटा के साथ शुरुआत करना और धीरे-धीरे मॉडल विकास के विभिन्न चरणों के माध्यम से काम करना आवश्यक है। हालाँकि, व्यवसाय विशिष्ट आवश्यकताओं को पूरा करने और व्यवसाय प्रौद्योगिकी और दस्तावेज़ श्रेणियों को मैप करने के लिए पाठ दस्तावेज़ों को स्वचालित रूप से श्रेणियों या टैग में वर्गीकृत करने के लिए अमेज़ॅन कॉम्प्रिहेंशन कस्टम वर्गीकरण का उपयोग करके अपने स्वयं के अनूठे मशीन लर्निंग मॉडल बना सकते हैं। चूँकि मानव टैगिंग या वर्गीकरण अब आवश्यक नहीं है, इससे व्यवसायों का बहुत सारा समय, पैसा और श्रम बच सकता है। हमने संपूर्ण प्रशिक्षण पाइपलाइन को स्वचालित करके इस प्रक्रिया को सरल बना दिया है।

इस बहु-श्रृंखला ब्लॉग पोस्ट के पहले भाग में, आप सीखेंगे कि स्केलेबल प्रशिक्षण पाइपलाइन कैसे बनाएं और कस्टम वर्गीकरण मॉडल को समझने के लिए प्रशिक्षण डेटा कैसे तैयार करें। हम एक कस्टम क्लासिफायर प्रशिक्षण पाइपलाइन पेश करेंगे जिसे कुछ ही क्लिक के साथ आपके AWS खाते में तैनात किया जा सकता है। हम बीबीसी समाचार डेटासेट का उपयोग कर रहे हैं, और उस वर्ग (जैसे राजनीति, खेल) की पहचान करने के लिए एक क्लासिफायरियर को प्रशिक्षित करेंगे जो दस्तावेज़ से संबंधित है। पाइपलाइन आपके संगठन को परिवर्तनों पर तेजी से प्रतिक्रिया देने और हर बार शून्य से शुरुआत किए बिना नए मॉडलों को प्रशिक्षित करने में सक्षम बनाएगी। आप अपनी मांग के आधार पर आसानी से कई मॉडलों का विस्तार और प्रशिक्षण कर सकते हैं।

.. पूर्वापेक्षाएँ

एक सक्रिय AWS खाता (क्लिक करें) यहाँ उत्पन्न करें एक नया AWS खाता बनाने के लिए)
अमेज़ॅन कॉम्प्रिहेंशन, अमेज़ॅन एस3, अमेज़ॅन लैम्ब्डा, अमेज़ॅन स्टेप फंक्शन, अमेज़ॅन एसएनएस और अमेज़ॅन क्लाउडफॉर्मेशन तक पहुंच
प्रशिक्षण डेटा (अर्ध-संरचना या पाठ) निम्नलिखित अनुभाग में तैयार किया गया है
सामान्य तौर पर पायथन और मशीन लर्निंग के बारे में बुनियादी ज्ञान

प्रशिक्षण डेटा तैयार करें

यह समाधान या तो इनपुट ले सकता है पाठ प्रारूप (उदा. सीएसवी) या अर्ध-संरचित प्रारूप (उदा. पीडीएफ).

पाठ इनपुट

Amazon Comprehend कस्टम वर्गीकरण दो मोड का समर्थन करता है: मल्टी-क्लास और मल्टी-लेबल।

मल्टी-क्लास मोड में, प्रत्येक दस्तावेज़ में एक और केवल एक वर्ग निर्दिष्ट किया जा सकता है। प्रशिक्षण डेटा को दो-स्तंभ वाली CSV फ़ाइल के रूप में तैयार किया जाना चाहिए, जिसमें फ़ाइल की प्रत्येक पंक्ति में एक एकल वर्ग और दस्तावेज़ का पाठ हो जो वर्ग को प्रदर्शित करता हो।

CLASS, Text of document 1
CLASS, Text of document 2
...

के लिए उदाहरण बीबीसी समाचार डेटासेट:

Business, Europe blames US over weak dollar...
Tech, Cabs collect mountain of mobiles...
...

मल्टी-लेबल मोड में, प्रत्येक दस्तावेज़ में कम से कम एक वर्ग निर्दिष्ट होता है, लेकिन अधिक भी हो सकता है। प्रशिक्षण डेटा दो-स्तंभ वाली CSV फ़ाइल के रूप में होना चाहिए, जिसमें फ़ाइल की प्रत्येक पंक्ति में एक या अधिक कक्षाएं और प्रशिक्षण दस्तावेज़ का पाठ हो। प्रत्येक वर्ग के बीच एक सीमांकक का उपयोग करके एक से अधिक वर्गों को इंगित किया जाना चाहिए।

CLASS, Text of document 1
CLASS|CLASS|CLASS, Text of document 2
...

किसी भी प्रशिक्षण मोड के लिए सीएसवी फ़ाइल में कोई हेडर शामिल नहीं किया जाना चाहिए।

अर्ध-संरचित इनपुट

2023 में शुरू, Amazon Comprehend अब अर्ध-संरचित दस्तावेज़ों का उपयोग करके प्रशिक्षण मॉडल का समर्थन करता है। अर्ध-संरचना इनपुट के लिए प्रशिक्षण डेटा में लेबल किए गए दस्तावेज़ों का एक सेट शामिल होता है, जो किसी दस्तावेज़ भंडार से पूर्व-पहचान किए गए दस्तावेज़ हो सकते हैं, जिन तक आपके पास पहले से ही पहुंच है। प्रशिक्षण के लिए आवश्यक एनोटेशन फ़ाइल सीएसवी डेटा का एक उदाहरण निम्नलिखित है (नमूना डेटा):

CLASS, document1.pdf, 1
CLASS, document1.pdf, 2
...

एनोटेशन CSV फ़ाइल में तीन कॉलम होते हैं: पहले कॉलम में दस्तावेज़ के लिए लेबल होता है, दूसरे कॉलम में दस्तावेज़ का नाम (यानी, फ़ाइल नाम) होता है, और अंतिम कॉलम में दस्तावेज़ का पृष्ठ नंबर होता है जिसे आप इसमें शामिल करना चाहते हैं प्रशिक्षण डेटासेट. ज्यादातर मामलों में, यदि एनोटेशन सीएसवी फ़ाइल अन्य सभी दस्तावेज़ों के साथ एक ही फ़ोल्डर में स्थित है, तो आपको बस दूसरे कॉलम में दस्तावेज़ का नाम निर्दिष्ट करना होगा। हालाँकि, यदि CSV फ़ाइल किसी भिन्न स्थान पर स्थित है, तो आपको दूसरे कॉलम में स्थान का पथ निर्दिष्ट करना होगा, जैसे कि path/to/prefix/document1.pdf.

अपना प्रशिक्षण डेटा कैसे तैयार करें, इसकी जानकारी के लिए कृपया देखें यहाँ उत्पन्न करें.

समाधान अवलोकन

Amazon Comprehend कस्टम वर्गीकरण (भाग I) के साथ एक वर्गीकरण पाइपलाइन बनाएं | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

Amazon Comprehend प्रशिक्षण पाइपलाइन तब शुरू होती है जब प्रशिक्षण डेटा (टेक्स्ट इनपुट के लिए .csv फ़ाइल और सेमी-स्ट्रक्चर इनपुट के लिए एनोटेशन .csv फ़ाइल) एक समर्पित अमेज़ॅन सिंपल स्टोरेज सर्विस पर अपलोड किया जाता है (अमेज़न S3) बाल्टी।
An AWS लाम्बा फ़ंक्शन द्वारा आह्वान किया जाता है अमेज़न S3 ट्रिगर इस प्रकार कि हर बार किसी ऑब्जेक्ट को निर्दिष्ट पर अपलोड किया जाए अमेज़न S3 स्थान, AWS लैम्ब्डा फ़ंक्शन स्रोत बकेट नाम और अपलोड किए गए ऑब्जेक्ट का मुख्य नाम पुनर्प्राप्त करता है और इसे प्रशिक्षण के लिए पास करता है समारोह की ओर कदम बढ़ाएं कार्यप्रवाह।
प्रशिक्षण चरण फ़ंक्शन में, इनपुट पैरामीटर के रूप में प्रशिक्षण डेटा बकेट नाम और ऑब्जेक्ट कुंजी नाम प्राप्त करने के बाद, एक कस्टम मॉडल प्रशिक्षण वर्कफ़्लो लैम्ब्डा फ़ंक्शंस की एक श्रृंखला के रूप में शुरू होता है जैसा कि वर्णित है:
1. StartComprehendTraining: यह AWS लैम्ब्डा फ़ंक्शन परिभाषित करता है ComprehendClassifier इनपुट फ़ाइलों के प्रकार (यानी, पाठ या अर्ध-संरचित) के आधार पर ऑब्जेक्ट और फिर शुरू होता है Amazon Comprehend कॉल करके कस्टम वर्गीकरण प्रशिक्षण कार्य create_document_classifier एप्लीकेशन प्रोग्रामिंग इंटरफैक्ट (एपीआई), जो एक ट्रेनिंग जॉब अमेज़ॅन रिसोर्स नेम्स (एआरएन) लौटाता है। इसके बाद, यह फ़ंक्शन प्रारंभ करके प्रशिक्षण कार्य की स्थिति की जाँच करता है वर्णन_दस्तावेज़_वर्गीकरणकर्ता एपीआई. अंत में, यह प्रशिक्षण कार्यप्रवाह के अगले चरण के आउटपुट के रूप में एक प्रशिक्षण कार्य एआरएन और कार्य स्थिति लौटाता है।
2. GetTrainingJobStatus: यह AWS Lambda हर 15 मिनट में कॉल करके ट्रेनिंग जॉब की स्थिति की जांच करता है वर्णन_दस्तावेज़_वर्गीकरणकर्ता एपीआई, जब तक कि प्रशिक्षण कार्य की स्थिति पूर्ण या विफल में न बदल जाए।
3. GenerateMultiClass or GenerateMultiLabel: यदि आप चुनते हैं हाँ स्टैक लॉन्च करते समय प्रदर्शन रिपोर्ट के लिए, इन दो AWS लैंबडा में से एक आपके अमेज़ॅन कॉम्प्रिहेंसिव मॉडल आउटपुट के अनुसार विश्लेषण चलाएगा, जो प्रति वर्ग प्रदर्शन विश्लेषण उत्पन्न करता है और इसे सहेजता है अमेज़न S3.
4. GenerateMultiClass: यदि आपका इनपुट है तो इस AWS लैम्ब्डा को कॉल किया जाएगा मल्टीक्लास और आप चयन करें हाँ प्रदर्शन रिपोर्ट के लिए.
5. GenerateMultiLabel: यदि आपका इनपुट है तो इस AWS लैम्ब्डा को कॉल किया जाएगा मल्टीलेबल और आप चयन करें हाँ प्रदर्शन रिपोर्ट के लिए.
एक बार प्रशिक्षण सफलतापूर्वक पूरा हो जाने पर, समाधान निम्नलिखित आउटपुट उत्पन्न करता है:
1. कस्टम वर्गीकरण मॉडल: भविष्य के अनुमान कार्य के लिए एक प्रशिक्षित मॉडल एआरएन आपके खाते में उपलब्ध होगा।
2. असमंजस का जाल [विकल्पएल]: एक भ्रम मैट्रिक्स (confusion_matrix.json) उपयोगकर्ता परिभाषित आउटपुट में उपलब्ध होगा अमेज़न S3 पथ, उपयोगकर्ता चयन पर निर्भर करता है।
3. अमेज़न सरल अधिसूचना सेवा अधिसूचना [विकल्पएल]: प्रारंभिक उपयोगकर्ता चयन के आधार पर, ग्राहकों को प्रशिक्षण नौकरी की स्थिति के बारे में एक अधिसूचना ईमेल भेजा जाएगा।

Walkthrough

समाधान लॉन्च करना

अपनी पाइपलाइन परिनियोजित करने के लिए, निम्न चरणों को पूरा करें:

चुनें स्टैक लॉन्च करें बटन:

अगला चुनें

अपने उपयोग के मामले में उपयुक्त विकल्पों के साथ पाइपलाइन विवरण निर्दिष्ट करें:

प्रत्येक स्टैक विवरण के लिए जानकारी:

स्टैक नाम (आवश्यक) - इसके लिए आपने जो नाम निर्दिष्ट किया है एडब्ल्यूएस CloudFormation ढेर। नाम उस क्षेत्र में अद्वितीय होना चाहिए जिसमें आप इसे बना रहे हैं।
Q01क्लासिफायरइनपुटबकेटनाम (आवश्यक) - आपके इनपुट डेटा को स्टोर करने के लिए Amazon S3 बकेट नाम। यह विश्व स्तर पर अद्वितीय नाम होना चाहिए और AWS क्लाउडफॉर्मेशन स्टैक लॉन्च होने के दौरान आपको बकेट बनाने में मदद करता है।
Q02क्लासिफायरआउटपुटबकेटनाम (आवश्यक) - अमेज़ॅन कंप्रीहेंड और पाइपलाइन से आउटपुट संग्रहीत करने के लिए अमेज़ॅन एस3 बकेट नाम। यह विश्व स्तर पर एक अनूठा नाम भी होना चाहिए।
Q03इनपुटफ़ॉर्मेट - एक ड्रॉपडाउन चयन, आप चुन सकते हैं टेक्स्ट (यदि आपका प्रशिक्षण डेटा सीएसवी फ़ाइलें है) या अर्ध-संरचना (यदि आपका प्रशिक्षण डेटा अर्ध-संरचना है [उदाहरण के लिए, पीडीएफ फाइलें]) आपके डेटा इनपुट प्रारूप के आधार पर।
Q04भाषा - एक ड्रॉपडाउन चयन, समर्थित सूची से दस्तावेज़ों की भाषा चुनना। कृपया ध्यान दें, वर्तमान में केवल अंग्रेजी समर्थित है यदि आपका इनपुट प्रारूप अर्ध-संरचना है।
Q05मल्टीक्लास - एक ड्रॉपडाउन चयन, चुनें हाँ यदि आपका इनपुट मल्टीक्लास मोड है। अन्यथा, चयन करें नहीं.
Q06लेबलडिलीमीटर - केवल तभी आवश्यक है जब आपका Q05MultiClass उत्तर है नहीं. इस सीमांकक का उपयोग आपके प्रशिक्षण डेटा में प्रत्येक वर्ग को अलग करने के लिए किया जाता है।
Q07सत्यापनडेटासेट - एक ड्रॉपडाउन चयन, उत्तर बदलें हाँ यदि आप अपने स्वयं के परीक्षण डेटा के साथ प्रशिक्षित क्लासिफायरियर के प्रदर्शन का परीक्षण करना चाहते हैं।
Q08S3ValidationPath - केवल तभी आवश्यक है जब आपका Q07ValidationDataset उत्तर है हाँ.
Q09प्रदर्शन रिपोर्ट - एक ड्रॉपडाउन चयन, चुनें हाँ यदि आप मॉडल प्रशिक्षण के बाद कक्षा-स्तरीय प्रदर्शन रिपोर्ट तैयार करना चाहते हैं। रिपोर्ट आपके निर्दिष्ट आउटपुट बकेट में Q02ClassifierOutputBucketName में सहेजी जाएगी।
Q10ईमेल अधिसूचना – एक ड्रॉपडाउन चयन. चुनना हाँ यदि आप मॉडल प्रशिक्षित होने के बाद अधिसूचना प्राप्त करना चाहते हैं।
Q11ईमेल आईडी - प्रदर्शन रिपोर्ट अधिसूचना प्राप्त करने के लिए वैध ईमेल पता दर्ज करें। कृपया ध्यान दें, प्रशिक्षण पूरा होने पर अधिसूचना प्राप्त करने से पहले, आपको एडब्ल्यूएस क्लाउडफॉर्मेशन स्टैक लॉन्च होने के बाद अपने ईमेल से सदस्यता की पुष्टि करनी होगी।

अमेज़ॅन कॉन्फ़िगर स्टैक विकल्प अनुभाग में, वैकल्पिक टैग, अनुमतियां और अन्य उन्नत सेटिंग्स जोड़ें।

चुनें अगला
स्टैक विवरण की समीक्षा करें और मैं इसे स्वीकार करता हूं का चयन करें एडब्ल्यूएस CloudFormation AWS बना सकता है आई ए एम संसाधनों।

चुनें सब्मिट. यह आपके AWS खाते में पाइपलाइन परिनियोजन आरंभ करता है।
स्टैक सफलतापूर्वक तैनात होने के बाद, आप पाइपलाइन का उपयोग शुरू कर सकते हैं। एक बनाने के /training-data इनपुट के लिए आपके निर्दिष्ट अमेज़ॅन S3 स्थान के अंतर्गत फ़ोल्डर। टिप्पणी: अमेज़न S3 जब तक आप एक अलग एन्क्रिप्शन विकल्प निर्दिष्ट नहीं करते, तब तक प्रत्येक नए ऑब्जेक्ट के लिए स्वचालित रूप से सर्वर-साइड एन्क्रिप्शन (SSE-S3) लागू होता है। कृपया संदर्भ Amazon S3 में डेटा सुरक्षा डेटा सुरक्षा और एन्क्रिप्शन पर अधिक जानकारी के लिए अमेज़न S3.

अपना प्रशिक्षण डेटा फ़ोल्डर में अपलोड करें। (यदि प्रशिक्षण डेटा अर्ध-संरचना है, तो .csv प्रारूप लेबल जानकारी अपलोड करने से पहले सभी पीडीएफ फाइलें अपलोड करें)।

हो गया! आपने सफलतापूर्वक अपनी पाइपलाइन तैनात कर दी है और आप तैनात चरण फ़ंक्शन में पाइपलाइन स्थिति की जांच कर सकते हैं। (आपके Amazon Comprehend कस्टम वर्गीकरण पैनल में एक प्रशिक्षित मॉडल होगा)।

यदि आप अंदर मॉडल और उसका संस्करण चुनते हैं Amazon Comprehend कंसोल, तो अब आप उस मॉडल के बारे में अधिक विवरण देख सकते हैं जिसे आपने अभी प्रशिक्षित किया है। इसमें आपके द्वारा चयनित मोड शामिल है, जो विकल्प Q05MultiClass, लेबल की संख्या और आपके प्रशिक्षण डेटा के अंदर प्रशिक्षित और परीक्षण दस्तावेज़ों की संख्या से मेल खाता है। आप नीचे समग्र प्रदर्शन भी देख सकते हैं; हालाँकि, यदि आप प्रत्येक कक्षा के लिए विस्तृत प्रदर्शन की जाँच करना चाहते हैं, तो कृपया तैनात पाइपलाइन द्वारा उत्पन्न प्रदर्शन रिपोर्ट देखें।

सेवा कोटा

आपके AWS खाते के लिए डिफ़ॉल्ट कोटा है Amazon Comprehend और AmazonTextract, यदि इनपुट अर्ध-संरचना प्रारूप में हैं। सेवा कोटा देखने के लिए कृपया देखें यहाँ उत्पन्न करें एसटी Amazon Comprehend और यहाँ उत्पन्न करें एसटी AmazonTextract.

क्लीन अप

चल रहे शुल्कों से बचने के लिए, काम पूरा होने पर इस समाधान के हिस्से के रूप में आपके द्वारा बनाए गए संसाधनों को हटा दें।

पर अमेज़न S3 कंसोल, इनपुट और आउटपुट डेटा के लिए आपके द्वारा बनाई गई बकेट के अंदर की सामग्री को मैन्युअल रूप से हटा दें।
पर एडब्ल्यूएस CloudFormation सांत्वना, चुनें ढेर नेविगेशन फलक में
मुख्य स्टैक का चयन करें और चुनें मिटाना.

यह स्वचालित रूप से तैनात स्टैक को हटा देता है।

आपका प्रशिक्षित Amazon Comprehend कस्टम वर्गीकरण मॉडल आपके खाते में रहेगा. यदि आपको अब इसकी आवश्यकता नहीं है, तो अंदर Amazon Comprehend कंसोल, बनाए गए मॉडल को हटा दें।

निष्कर्ष

इस पोस्ट में, हमने आपको एक स्केलेबल प्रशिक्षण पाइपलाइन की अवधारणा दिखाई Amazon Comprehend कस्टम वर्गीकरण मॉडल और नए मॉडलों को कुशलतापूर्वक प्रशिक्षित करने के लिए एक स्वचालित समाधान प्रदान करना। एडब्ल्यूएस CloudFormation प्रदान किया गया टेम्प्लेट आपके लिए मांग के पैमाने को पूरा करते हुए, सहजता से अपना स्वयं का टेक्स्ट वर्गीकरण मॉडल बनाना संभव बनाता है। समाधान हाल ही में घोषित यूक्लिड सुविधा को अपनाता है और टेक्स्ट या अर्ध-संरचित प्रारूप में इनपुट स्वीकार करता है।

अब, हम आपको, हमारे पाठकों को, इन उपकरणों का परीक्षण करने के लिए प्रोत्साहित करते हैं। आप इसके बारे में अधिक विवरण पा सकते हैं प्रशिक्षण डेटा तैयार करना और समझ लो कस्टम क्लासिफायर मेट्रिक्स. इसे आज़माएं और सीधे देखें कि यह आपकी मॉडल प्रशिक्षण प्रक्रिया को कैसे सुव्यवस्थित कर सकता है और दक्षता बढ़ा सकता है। कृपया अपनी प्रतिक्रिया हमें साझा करें!

लेखक के बारे में

संदीप सिंह ने गु AWS प्रोफेशनल सर्विसेज में एक वरिष्ठ डेटा वैज्ञानिक हैं। वह अत्याधुनिक एआई/एमएल संचालित समाधान विकसित करके ग्राहकों को कुछ नया करने और उनके व्यावसायिक उद्देश्यों को हासिल करने में मदद करने को लेकर उत्साहित हैं। वह वर्तमान में जेनरेटिव एआई, एलएलएम, प्रॉम्प्ट इंजीनियरिंग और उद्यमों में स्केलिंग मशीन लर्निंग पर ध्यान केंद्रित कर रहे हैं। वह ग्राहकों के लिए मूल्य बनाने के लिए हालिया एआई प्रगति लेकर आए हैं।

यानयान झांग AWS प्रोफेशनल सर्विसेज के साथ एनर्जी डिलीवरी टीम में एक वरिष्ठ डेटा वैज्ञानिक हैं। वह एआई/एमएल ज्ञान के साथ ग्राहकों की वास्तविक समस्याओं को हल करने में मदद करने को लेकर उत्साहित हैं। हाल ही में, उनका ध्यान जेनरेटिव एआई और एलएलएम की क्षमता तलाशने पर रहा है। काम के अलावा, उसे यात्रा करना, बाहर काम करना और नई चीजें तलाशना पसंद है।

Wrick तालुकदार Amazon Comprehend Service टीम के साथ एक वरिष्ठ वास्तुकार हैं। वह बड़े पैमाने पर मशीन लर्निंग को अपनाने में मदद करने के लिए AWS ग्राहकों के साथ काम करता है। काम के अलावा उन्हें पढ़ने और फोटोग्राफी करने में मजा आता है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
चार्टप्राइम. चार्टप्राइम के साथ अपने ट्रेडिंग गेम को उन्नत करें। यहां पहुंचें।
BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/build-a-classification-pipeline-with-amazon-comprehend-custom-classification-part-i/

समय टिकट: सितम्बर 14, 2023

समय टिकट: अप्रैल 13, 2023

प्लेटो द्वारा पुनर्प्रकाशित

Amazon SageMaker ग्राउंड ट्रुथ में वेलोडाइन LiDAR सेंसर के साथ LiDAR 3D पॉइंट क्लाउड लेबलिंग

डेटा तैयार करने के लिए Amazon SageMaker डेटा रैंगलर और ML के साथ सीखने और प्रयोग करने के लिए स्टूडियो लैब्स का उपयोग करें

अमेज़ॅन केंद्र इंटेलिजेंट रैंकिंग और ओपनसर्च प्लगइन के साथ बेहतर खोज परिणाम प्राप्त करें

कम विलंबता और लागत के साथ Patsnap ने Amazon SageMaker पर GPT-2 अनुमान का उपयोग कैसे किया | अमेज़न वेब सेवाएँ

सुरक्षित Amazon SageMaker Studio द्वारा निर्धारित URL भाग 3: स्टूडियो के लिए बहु-खाता निजी API एक्सेस

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा