लेआउटएलएम समझाया गया

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

दस्तावेज़ प्रसंस्करण क्या है?

लेआउटएलएम समझाया गया

दस्तावेज़ प्रसंस्करण दस्तावेज़ों से संरचित डेटा के निष्कर्षण को स्वचालित करने की प्रक्रिया है। यह किसी भी दस्तावेज़ के लिए हो सकता है, जैसे कि एक चालान, एक फिर से शुरू, आईडी कार्ड, आदि। यहां चुनौतीपूर्ण हिस्सा सिर्फ ओसीआर नहीं है। वहाँ कम लागत पर कई विकल्प उपलब्ध हैं जो टेक्स्ट निकाल सकते हैं और आपको स्थान दे सकते हैं। असली चुनौती टेक्स्ट के इन टुकड़ों को सटीक और स्वचालित रूप से लेबल करना है।

दस्तावेज़ प्रसंस्करण का व्यावसायिक प्रभाव

कई उद्योग अपने दिन-प्रतिदिन के कार्यों के लिए दस्तावेज़ प्रसंस्करण पर बहुत अधिक निर्भर करते हैं। वित्तीय संगठनों को एसईसी फाइलिंग, बीमा फाइलिंग तक पहुंच की आवश्यकता होती है, एक ई-कॉमर्स या आपूर्ति श्रृंखला कंपनी को उन चालानों तक पहुंच की आवश्यकता हो सकती है जिनका उपयोग किया जा रहा है, सूची जारी है। इस जानकारी की सटीकता उतनी ही महत्वपूर्ण है जितनी समय की बचत, यही कारण है कि हम हमेशा उन्नत गहन शिक्षण विधियों का उपयोग करने की सलाह देते हैं जो अधिक सामान्यीकरण करती हैं, और अधिक सटीक होती हैं।

पीडब्ल्यूसी की इस रिपोर्ट के मुताबिक, [संपर्क] यहां तक कि संरचित डेटा निष्कर्षण की सबसे प्राथमिक राशि भी पीडीएफ से एक्सेल स्प्रेडशीट में डेटा को मैन्युअल रूप से कॉपी और पेस्ट करने पर खर्च किए गए कर्मचारी समय के 30-50% को बचाने में मदद कर सकती है। लेआउटएलएम जैसे मॉडल निश्चित रूप से अल्पविकसित नहीं हैं, उन्हें अत्यंत बुद्धिमान एजेंटों के रूप में बनाया गया है जो विभिन्न उपयोग के मामलों में बड़े पैमाने पर सटीक डेटा निष्कर्षण में सक्षम हैं। यहां तक कि अपने कई ग्राहकों के साथ, हमने मैन्युअल रूप से डेटा निकालने के लिए आवश्यक समय को 20 मिनट प्रति दस्तावेज़ से घटाकर 10 सेकंड से कम कर दिया है। यह एक बड़े पैमाने पर बदलाव है, जो श्रमिकों को अधिक उत्पादक और समग्र रूप से उच्च थ्रूपुट के लिए सक्षम बनाता है।

तो लेआउटएलएम के समान एआई कहां लागू किया जा सकता है? नैनोनेट्स में, हमने इस तरह की तकनीक का इस्तेमाल किया है

और कई अन्य उपयोग के मामले।

लेआउटएलएम क्यों?

डीप लर्निंग मॉडल कैसे समझता है कि दिया गया टेक्स्ट इनवॉइस में आइटम विवरण है या इनवॉइस नंबर? सीधे शब्दों में कहें, तो एक मॉडल कैसे सीखता है कि लेबल को सही तरीके से कैसे असाइन किया जाए?

एक तरीका यह है कि BERT या GPT-3 जैसे बड़े भाषा मॉडल से टेक्स्ट एम्बेडिंग का उपयोग किया जाए और इसे क्लासिफायर के माध्यम से चलाया जाए - हालांकि यह बहुत प्रभावी नहीं है। ऐसी बहुत सी जानकारी है जिसका कोई विशुद्ध रूप से टेक्स्ट का उपयोग करके अनुमान नहीं लगा सकता है। या, कोई छवि आधारित जानकारी का उपयोग कर सकता है। यह R-CNN और Faster R-CNN मॉडल का उपयोग करके प्राप्त किया गया था। हालाँकि, यह अभी भी दस्तावेजों में उपलब्ध जानकारी का पूरी तरह से उपयोग नहीं करता है। इस्तेमाल किया गया एक अन्य दृष्टिकोण ग्राफ़ कन्वेन्शनल न्यूरल नेटवर्क्स के साथ था, जो स्थानीय और पाठ्य जानकारी दोनों को जोड़ता था, लेकिन छवि जानकारी को ध्यान में नहीं रखता था।

तो हम सूचना के सभी तीन आयामों का उपयोग कैसे करते हैं, अर्थात पाठ, छवि और दिए गए पाठ का स्थान भी? यही वह जगह है जहां लेआउटएलएम जैसे मॉडल आते हैं। कई वर्षों पहले अनुसंधान का एक सक्रिय क्षेत्र होने के बावजूद, लेआउटएलएम उन पहले मॉडलों में से एक था जिसने एकवचन मॉडल बनाने के लिए टुकड़ों को मिलाकर सफलता हासिल की जो स्थितिगत जानकारी, टेक्स्ट आधारित जानकारी का उपयोग करके लेबलिंग करता है। और छवि जानकारी भी।

लेआउटएलएम ट्यूटोरियल

लेआउटएलएम समझाया गया — लेआउटएलएम आर्किटेक्चर

यह आलेख मानता है कि आप समझते हैं कि भाषा मॉडल क्या है। यदि नहीं, तो चिंता न करें, हमने उस पर एक लेख भी लिखा था! यदि आप इस बारे में अधिक जानना चाहते हैं कि ट्रांसफॉर्मर मॉडल क्या हैं, और क्या ध्यान दिया जाता है, तो यहां जय आलममार का एक अद्भुत लेख है.

यह मानते हुए कि हमने इन चीजों को रास्ते से हटा दिया है, आइए ट्यूटोरियल के साथ शुरुआत करें। हम मुख्य संदर्भ के रूप में मूल लेआउटएलएम पेपर का उपयोग करेंगे।

ओसीआर पाठ निष्कर्षण

किसी दस्तावेज़ के साथ हम सबसे पहली बात यह करते हैं कि दस्तावेज़ से टेक्स्ट आधारित जानकारी निकालें, और उनके संबंधित स्थानों का पता लगाएं। स्थान के अनुसार, हम 'बाउंडिंग बॉक्स' नामक किसी चीज़ का उल्लेख करते हैं। एक बाउंडिंग बॉक्स एक आयत है जो पृष्ठ पर पाठ के टुकड़े को समाहित करता है।

ज्यादातर मामलों में, यह माना जाता है कि बाउंडिंग बॉक्स की उत्पत्ति ऊपरी बाएं कोने में होती है, और यह कि सकारात्मक x-अक्ष को मूल से पृष्ठ के दाईं ओर निर्देशित किया जाता है, और सकारात्मक y-अक्ष को मूल से निर्देशित किया जाता है पृष्ठ के निचले भाग में, जिसमें एक पिक्सेल को मापन की इकाई माना जाता है।

भाषा और स्थान एम्बेडिंग

इसके बाद, हम पांच अलग-अलग एम्बेडिंग परतों का उपयोग करते हैं। एक, भाषा संबंधी जानकारी को एन्कोड करना है - यानी टेक्स्ट एम्बेडिंग।

अन्य चार स्थान एम्बेडिंग के लिए आरक्षित हैं। यह मानते हुए कि हम xmin, ymin, xmax और ymax के मान जानते हैं, हम पूरे बाउंडिंग बॉक्स को निर्धारित कर सकते हैं (यदि आप इसकी कल्पना नहीं कर सकते हैं, यहाँ आपके लिए एक लिंक है). इन निर्देशांकों को स्थान के लिए जानकारी को एन्कोड करने के लिए उनकी संबंधित एम्बेडिंग परतों के माध्यम से पारित किया जाता है।

पांच एम्बेडिंग - एक टेक्स्ट के लिए और चार निर्देशांक के लिए - फिर लेआउटएलएम के माध्यम से पारित एम्बेडिंग के अंतिम मूल्य को बनाने के लिए जोड़ा जाता है। आउटपुट को LayoutLM एम्बेडिंग कहा जाता है।

छवि एम्बेडिंग

ठीक है, इसलिए हमने टेक्स्ट और स्थान संबंधी जानकारी को उनके एम्बेडिंग को मिलाकर और इसे एक भाषा मॉडल के माध्यम से पास करके खोजने में कामयाबी हासिल की है। अब हम इसमें छवि संबंधी जानकारी के संयोजन की प्रक्रिया को कैसे देखते हैं?

जबकि पाठ और लेआउट जानकारी को एन्कोड किया जा रहा है, समानांतर में, हम दस्तावेज़ से संबंधित पाठ के क्षेत्रों को निकालने के लिए तेज़ आर-सीएनएन का उपयोग करते हैं। फास्टर आर-सीएनएन एक छवि मॉडल है जिसका उपयोग ऑब्जेक्ट डिटेक्शन के लिए किया जाता है। हमारे मामले में, हम इसका उपयोग पाठ के विभिन्न टुकड़ों का पता लगाने के लिए करते हैं (यह मानते हुए कि प्रत्येक वाक्यांश एक वस्तु है) और फिर छवियों के लिए एम्बेडिंग उत्पन्न करने में मदद करने के लिए खंडित छवियों को पूरी तरह से कनेक्टेड परत के माध्यम से पास करते हैं।

LayoutLM एम्बेडिंग के साथ-साथ छवि एम्बेडिंग को एक अंतिम एम्बेडिंग बनाने के लिए संयोजित किया जाता है, जिसे बाद में डाउनस्ट्रीम प्रोसेसिंग करने के लिए उपयोग किया जा सकता है।

पूर्व-प्रशिक्षण लेआउटLM

उपरोक्त सभी तभी समझ में आते हैं जब हम उस विधि को समझते हैं जिसमें LayoutLM को प्रशिक्षित किया गया था। आखिरकार, कोई फर्क नहीं पड़ता कि हम तंत्रिका नेटवर्क में किस तरह के कनेक्शन स्थापित करते हैं, जब तक कि इसे सही सीखने के उद्देश्य से प्रशिक्षित नहीं किया जाता है, यह काफी स्मार्ट नहीं है। लेआउटएलएम के लेखक पूर्व-प्रशिक्षण BERT के लिए उपयोग की जाने वाली विधि के समान एक विधि का अनुसरण करना चाहते थे।

नकाबपोश दृश्य भाषा मॉडल (एमवीएलएम)

मॉडल को यह जानने में मदद करने के लिए कि एक निश्चित स्थान पर कौन सा टेक्स्ट हो सकता है, लेखकों ने स्थान संबंधी जानकारी और एम्बेडिंग को बनाए रखते हुए टेक्स्ट के कुछ टोकन को बेतरतीब ढंग से मास्क किया। इसने लेआउटएलएम को सरल नकाबपोश भाषा मॉडलिंग से परे जाने में सक्षम बनाया, और पाठ एम्बेडिंग को स्थान संबंधी तौर-तरीकों के साथ जोड़ने में भी मदद की।

मल्टी-लेबल दस्तावेज़ वर्गीकरण (एमडीसी)

दस्तावेज़ में सभी जानकारी को श्रेणियों में वर्गीकृत करने के लिए उपयोग करने से मॉडल को यह समझने में मदद मिलती है कि दस्तावेज़ों के एक निश्चित वर्ग के लिए कौन सी जानकारी प्रासंगिक है। हालांकि, लेखक ध्यान दें कि बड़े डेटासेट के लिए, दस्तावेज़ वर्गों पर डेटा आसानी से उपलब्ध नहीं हो सकता है। इसलिए, उन्होंने अकेले एमवीएलएम प्रशिक्षण और एमवीएलएम + एमडीसी प्रशिक्षण दोनों के आधार पर परिणाम प्रदान किए हैं।

डाउनस्ट्रीम कार्यों के लिए फाइन ट्यूनिंग लेआउटLM

कई डाउनस्ट्रीम कार्य हैं जिन्हें LayoutLM के साथ निष्पादित किया जा सकता है। हम उन लोगों पर चर्चा करेंगे जो लेखकों ने किए थे।

प्रपत्र समझ

इस कार्य में किसी लेबल प्रकार को किसी दिए गए पाठ के टुकड़े से जोड़ना शामिल है। इसका उपयोग करके हम किसी भी प्रकार के दस्तावेज़ से संरचित डेटा निकाल सकते हैं। अंतिम आउटपुट को देखते हुए, यानी लेयूएलएम एम्बेडिंग + छवि एम्बेडिंग, उन्हें पूरी तरह से कनेक्टेड परत के माध्यम से पारित किया जाता है और फिर टेक्स्ट के दिए गए टुकड़े के लेबल के लिए कक्षा की संभावनाओं की भविष्यवाणी करने के लिए सॉफ्टमैक्स के माध्यम से पारित किया जाता है।

रसीद समझ

इस कार्य में, सूचना के कई स्लॉट प्राप्तियों पर खाली छोड़ दिए गए थे, और मॉडल को टेक्स्ट के टुकड़ों को उनके संबंधित स्लॉट पर सही ढंग से रखना था।

दस्तावेज़ छवि वर्गीकरण

दस्तावेज़ के पाठ और छवि की जानकारी को एक सॉफ्टमैक्स परत के माध्यम से दस्तावेज़ के वर्ग को समझने में मदद करने के लिए संयोजित किया जाता है।

हगिंगफेस लेआउटLM

लेआउटएलएम की इतनी चर्चा होने का एक मुख्य कारण यह है कि मॉडल कुछ समय पहले खुला था। यह है हगिंग फेस पर उपलब्ध है, इसलिए LayoutLM का उपयोग करना अब काफी आसान हो गया है।

इससे पहले कि आप अपनी आवश्यकताओं के लिए LayoutLM को कैसे फाइन-ट्यून कर सकते हैं, इसकी बारीकियों में गोता लगाएँ, कुछ बातों पर ध्यान देना चाहिए।

पुस्तकालय स्थापित करना

LayoutLM चलाने के लिए, आपको हगिंग फेस से ट्रांसफॉर्मर लाइब्रेरी की आवश्यकता होगी, जो बदले में PyTorch लाइब्रेरी पर निर्भर है। उन्हें स्थापित करने के लिए (यदि पहले से स्थापित नहीं है), निम्नलिखित कमांड चलाएँ:

बाउंडिंग बॉक्स पर

छवि आकार की परवाह किए बिना एक समान एम्बेडिंग योजना बनाने के लिए, बाउंडिंग बॉक्स निर्देशांक को 1000 . के पैमाने पर सामान्यीकृत किया जाता है

विन्यास

Transformers.LayoutLMConfig वर्ग का उपयोग करके, आप अपनी आवश्यकताओं के अनुसार मॉडल के आकार को सर्वोत्तम रूप से सेट कर सकते हैं, क्योंकि ये मॉडल आमतौर पर भारी होते हैं और इसके लिए थोड़ी गणना शक्ति की आवश्यकता होती है। इसे छोटे मॉडल पर सेट करने से आपको इसे स्थानीय रूप से चलाने में मदद मिल सकती है। आप ऐसा कर सकते हैं यहां कक्षा के बारे में और जानें.

दस्तावेज़ वर्गीकरण के लिए लेआउटएलएम (संपर्क)

यदि आप दस्तावेज़ वर्गीकरण करना चाहते हैं, तो आपको वर्ग ट्रांसफार्मर की आवश्यकता होगी। LayoutLMForSequenceClassification। यहां अनुक्रम आपके द्वारा निकाले गए दस्तावेज़ से पाठ का क्रम है। यहां हगिंग फेस.को से एक छोटा कोड नमूना दिया गया है जो यह बताएगा कि इसका उपयोग कैसे किया जाए

टेक्स्ट लेबलिंग के लिए लेआउटएलएम (संपर्क)

सिमेंटिक लेबलिंग करने के लिए, यानी दस्तावेज़ में टेक्स्ट के विभिन्न हिस्सों को लेबल असाइन करें, आपको क्लास ट्रांसफॉर्मर की आवश्यकता होगी। LayoutLMForTokenClassification। आप पर अधिक विवरण प्राप्त कर सकते हैं मुझे भीयह आपके लिए कैसे काम कर सकता है, यह देखने के लिए यहां एक छोटा कोड नमूना है

हगिंग फेस लेआउट के बारे में ध्यान देने योग्य कुछ बातेंLM

वर्तमान में, हगिंग फेस लेआउटएलएम मॉडल टेक्स्ट निष्कर्षण के लिए टेसरैक्ट ओपन सोर्स लाइब्रेरी का उपयोग करता है, जो बहुत सटीक नहीं है। आप AWS Textract या Google Cloud Vision जैसे किसी भिन्न, भुगतान किए गए OCR टूल का उपयोग करने पर विचार कर सकते हैं
मौजूदा मॉडल केवल भाषा मॉडल प्रदान करता है, अर्थात लेआउटएलएम एम्बेडिंग, न कि अंतिम परतें जो दृश्य सुविधाओं को जोड़ती हैं। लेआउटLMv2 (अगले भाग में चर्चा) विज़ुअल फीचर एम्बेडिंग को भी सक्षम करने के लिए डिटेक्टर लाइब्रेरी का उपयोग करता है।
लेबल का वर्गीकरण एक शब्द स्तर पर होता है, इसलिए यह वास्तव में OCR टेक्स्ट एक्सट्रैक्शन इंजन पर निर्भर करता है कि किसी फ़ील्ड में सभी शब्द निरंतर क्रम में हों, या एक फ़ील्ड को दो के रूप में भविष्यवाणी की जा सकती है।

लेआउटLMv2

LayoutLM एक क्रांति के रूप में सामने आया कि कैसे दस्तावेज़ों से डेटा निकाला गया। हालाँकि, जहाँ तक गहन शिक्षण अनुसंधान की बात है, मॉडल केवल समय के साथ अधिक से अधिक सुधार करते हैं। LayoutLM को इसी तरह LayoutLMv2 द्वारा सफल बनाया गया, जहां लेखकों ने मॉडल को प्रशिक्षित करने के तरीके में कुछ महत्वपूर्ण बदलाव किए।

1-डी स्थानिक एंबेडिंग और विजुअल टोकन एंबेडिंग सहित

LayoutLMv2 में 1-डी सापेक्ष स्थान के साथ-साथ समग्र छवि संबंधी जानकारी के बारे में जानकारी शामिल है। नए प्रशिक्षण उद्देश्यों के कारण यह महत्वपूर्ण है, जिस पर अब हम चर्चा करेंगे

नए प्रशिक्षण उद्देश्य

LayoutLMv2 में कुछ संशोधित प्रशिक्षण उद्देश्य शामिल हैं। ये इस प्रकार हैं:

नकाबपोश दृश्य भाषा मॉडलिंग: यह लेआउटएलएम के समान है
पाठ छवि संरेखण: पाठ छवि से बेतरतीब ढंग से कवर किया गया था, जबकि पाठ टोकन मॉडल को प्रदान किए गए थे। प्रत्येक टोकन के लिए, मॉडल को यह सीखना था कि दिए गए पाठ को कवर किया गया था या नहीं। इसके माध्यम से, मॉडल दृश्य और पाठ्य दोनों तौर-तरीकों से जानकारी को संयोजित करने में सक्षम था
टेक्स्ट इमेज मैचिंग: मॉडल को यह जांचने के लिए कहा जाता है कि दी गई इमेज दिए गए टेक्स्ट से मेल खाती है या नहीं। नकारात्मक नमूने या तो झूठी छवियों के रूप में खिलाए जाते हैं, या कोई छवि एम्बेडिंग बिल्कुल भी प्रदान नहीं की जाती है। यह सुनिश्चित करने के लिए किया जाता है कि मॉडल इस बारे में अधिक सीखता है कि पाठ और चित्र कैसे संबंधित हैं।

इन नई विधियों और एम्बेडिंग का उपयोग करते हुए, मॉडल लेआउटएलएम के रूप में लगभग सभी परीक्षण डेटासेट पर उच्च F1 स्कोर प्राप्त करने में सक्षम था।

समय टिकट: मार्च २०,२०२१

समय टिकट: फ़रवरी 7, 2023

प्लेटो द्वारा पुनर्प्रकाशित

देय खाते आउटसोर्सिंग क्या है?

QuickBooks ऑनलाइन में समाधान पूर्ववत करें: आसान मार्गदर्शिका

सिलिकॉन वैली बैंक सर्वनाश से बचना: स्टार्टअप्स के लिए मल्टी-बैंक प्रबंधन

वर्कफ़्लो ऑटोमेशन गाइड और 5 के लिए 2022 सर्वश्रेष्ठ वर्कफ़्लो सॉफ़्टवेयर

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा