एडब्ल्यूएस टेक्सट्रैक्ट टियरडाउन - पेशेवरों और विपक्षों की समीक्षा की गई

एडब्ल्यूएस टेक्सट्रैक्ट टियरडाउन - पेशेवरों और विपक्षों की समीक्षा की गई

2023 में पाठ मान्यता

कई कंपनियों और संगठनों में, बहुत सारा मूल्यवान व्यावसायिक डेटा दस्तावेज़ों में संग्रहीत किया जाता है। यह डेटा डिजिटल परिवर्तन के केंद्र में है। दुर्भाग्य से, आँकड़ों के अनुसार, इस सभी डेटा का 80% व्यवसाय चालान, ईमेल, रसीदें, पीडीएफ दस्तावेज़ और कई अन्य जैसे असंरचित प्रारूपों में एम्बेडेड है। इसलिए, इन दस्तावेज़ों से जानकारी निकालने और उसका अधिकतम लाभ उठाने के लिए, कंपनियों ने धीरे-धीरे आर्टिफिशियल इंटेलिजेंस (एआई) आधारित सेवाओं पर भरोसा करना शुरू कर दिया। एआई-आधारित सेवाएं प्रदान करने वालों में से, अमेज़ॅन लंबे समय से सबसे प्रमुख खिलाड़ियों में से एक रहा है। जैसे विभिन्न समाधानों में इसके पंख फैले हुए थे दस्तावेज़ प्रसंस्करण, वाक् पहचान, पाठ विश्लेषण, और भी बहुत कुछ।

इस ब्लॉग में, हम अमेज़ॅन के एडब्ल्यूएस टेक्सट्रेक को देखेंगे, जो पूरी तरह से प्रबंधित मशीन सीखने की सेवा है जो स्कैन किए गए दस्तावेज़ों से स्वचालित रूप से मुद्रित पाठ, लिखावट, तालिकाओं और अन्य डेटा को निकालता है। आएँ शुरू करें!

सरल शब्दों में, AWS Textract एक गहरी सीखने-आधारित सेवा है जो विभिन्न प्रकार के दस्तावेज़ों को एक संपादन योग्य प्रारूप में परिवर्तित करता है। विचार करें कि हमारे पास विभिन्न कंपनियों के चालान की हार्ड कॉपी हैं और उनसे सभी महत्वपूर्ण जानकारी को एक्सेल / स्प्रेडशीट पर संग्रहीत करें। आमतौर पर, हम मैन्युअल रूप से उन्हें दर्ज करने के लिए डेटा एंट्री ऑपरेटरों पर भरोसा करते हैं, जो व्यस्त, समय लेने वाली और त्रुटि-प्रवण होता है। लेकिन Textract का उपयोग करते हुए, हमें केवल अपने चालान को उसमें अपलोड करना है और बदले में, यह सभी पाठ, प्रपत्र, कुंजी-मूल्य जोड़े, और दस्तावेज़ों में तालिकाओं को और अधिक संरचित तरीके से लौटाता है। नीचे एक स्क्रीनशॉट है कि AWS बुद्धिमान सूचना निष्कर्षण कैसे करता है:

एडब्ल्यूएस टेक्सट्रैक्ट टियरडाउन - पेशेवरों और विपक्षों की समीक्षा की गई प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.
AWS टेक्सट्रेक पर सूचना निष्कर्षण

सिर्फ टाइप किए गए टेक्स्ट ही नहीं, AWS टेक्स्ट्रेक दस्तावेजों में हस्तलिखित ग्रंथों की भी पहचान करता है। यह सूचना निष्कर्षण को अधिक उपयोगी बनाता है, क्योंकि कुछ मामलों में हस्तलिखित पाठ को निकालना टाइप किए गए लोगों की तुलना में अधिक जटिल है। अब टेक्स्टट्रैक का उपयोग करने के कुछ सामान्य उपयोग मामलों को देखें:

मजबूत और सामान्यीकृत डेटा कैप्चर: अमेज़ॅन टेक्स्टट्रैक्ट विभिन्न प्रकार के दस्तावेज़ों, जैसे वित्तीय दस्तावेज़, शोध रिपोर्ट और मेडिकल नोट्स से टेक्स्ट और सारणीबद्ध डेटा निष्कर्षण को सक्षम बनाता है। हालाँकि, ये कस्टम-निर्मित एपीआई नहीं हैं, लेकिन वे हर दिन बड़ी मात्रा में डेटा से सीखते हैं, और इस निरंतर सीखने के साथ, असंरचित निकालना और आपके दस्तावेज़ से संरचित डेटा बहुत आसान हो जाएगा।

मुख्य-मूल्य जोड़ी निष्कर्षण: दस्तावेज़ प्रसंस्करण के लिए कुंजी-मूल्य जोड़ी निष्कर्षण एक आम समस्या बन गई है लेकिन अमेज़ॅन टेक्स्टट्रैक्ट के साथ इसे आसानी से हल किया जा सकता है। हम टेक्स्टट्रैक्ट का उपयोग करके कुंजी-मूल्य जोड़ी निष्कर्षण के लिए पाइपलाइन बना सकते हैं दस्तावेज़ को स्वचालित करता है दस्तावेज़ों को स्कैन करने से लेकर डेटा को एक्सेल शीट आदि में भेजने तक का अधिकार।

एक बुद्धिमान खोज सूचकांक बनाना: अमेज़ॅन टेक्सट्रैक आपको छवि और पीडीएफ फाइलों में पाए गए पाठ के पुस्तकालयों को बनाने में सक्षम बनाता है।

प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के लिए बुद्धिमान पाठ निष्कर्षण का उपयोग करना - अमेज़ॅन टेक्सट्रेक आपको शब्दों और लाइनों में पाठ निकालने में सक्षम बनाता है। यह भी तालिका कोशिकाओं द्वारा पाठ को समूहीकृत करता है यदि अमेज़ॅन बनावट दस्तावेज़ तालिका विश्लेषण सक्षम है। अमेज़ॅन टेक्सट्रेक आपको यह नियंत्रित करता है कि एनएलपी के इनपुट के रूप में टेक्स्ट को कैसे वर्गीकृत किया जाए।


एक बुद्धिमान पाठ मान्यता समाधान के लिए खोज रहे हैं? वहां जाओ नैनोनेट्स और 95% से अधिक सटीकता के साथ समाधान का उपयोग करें।


इस अनुभाग में, हम चर्चा करेंगे कि AWS Textract कैसे काम करता है। हम जानते हैं कि मजबूत एआई और एमएल एल्गोरिदम उनके पीछे हैं; हालाँकि, किसी भी ओपन-सोर्स मॉडल को बारीकियों में गोता लगाने के लिए नहीं हैं। लेकिन मैं यहां मिलने वाले डॉक्यूमेंट को सारांशित करके कामकाज को डिकोड करने की कोशिश करूंगा। आएँ शुरू करें!

Amazon (AWS) टेक्सट्रैक कैसे काम करता है?
Amazon (AWS) टेक्सट्रैक कैसे काम करता है? (स्रोत: देव.टो)

सबसे पहले, जब भी एक नया या स्कैन किया हुआ दस्तावेज़ टेक्सट्रैक में भेजा जाता है, तो यह सभी ज्ञात टेक्स्ट के लिए ब्लॉक ऑब्जेक्ट्स की एक सूची बनाता है। उदाहरण के लिए, मान लें कि एक चालान में आज सौ शब्द हैं, AWS सभी शब्दों के लिए सौ ब्लॉक ऑब्जेक्ट बनाता है। इन ब्लॉकों में एक ज्ञात वस्तु के बारे में जानकारी होती है, जहां यह स्थित है, और प्रसंस्करण की सटीकता में अमेज़ॅन टेक्सट्रेक का विश्वास है।

आमतौर पर, अधिकांश दस्तावेज़ निम्नलिखित ब्लॉकों से बने होते हैं:

  • पेज
  • पाठ की पंक्तियाँ और शब्द
  • प्रपत्र डेटा (मुख्य-मूल्य जोड़े)
  • टेबल्स और सेल
  • चयन तत्व

नीचे एक उदाहरण और AWS बनावट का ब्लॉक डेटा स्ट्रक्चर है:

{ "Blocks":[ { "Geometry": { "BoundingBox": { "Width": 1.0, "Top": 0.0, "Left": 0.0, "Height": 1.0 }, "Polygon": [ { "Y": 0.0, "X": 0.0 }, { "Y": 0.0, "X": 1.0 }, { "Y": 1.0, "X": 1.0 }, { "Y": 1.0, "X": 0.0 } ] }, "Relationships": [ { "Type": "CHILD", "Ids": [ "2602b0a6-20e3-4e6e-9e46-3be57fd0844b", "82aedd57-187f-43dd-9eb1-4f312ca30042", "52be1777-53f7-42f6-a7cf-6d09bdc15a30", "7ca7caa6-00ef-4cda-b1aa-5571dfed1a7c" ] } ], "BlockType": "PAGE", "Id": "8136b2dc-37c1-4300-a9da-6ed8b276ea97" }..... ], "DocumentMetadata": { "Pages": 1 }
}

हालाँकि, ब्लॉक के अंदर की सामग्री उस ऑपरेशन के आधार पर बदल जाती है जिसे हम कॉल करते हैं। टेक्स्ट डिटेक्शन ऑपरेशन के लिए, ब्लॉक किए गए टेक्स्ट के पन्नों, लाइनों और शब्दों को वापस करते हैं। यदि हम दस्तावेज़ विश्लेषण कार्यों का उपयोग कर रहे हैं, तो ब्लॉक पहचाने गए पृष्ठों, कुंजी-मूल्य जोड़े, तालिकाओं, चयन तत्वों और पाठ को वापस कर देंगे। हालाँकि, यह केवल टेक्स्ट्रेक के उच्च-स्तरीय कामकाज की व्याख्या करता है, अगले भाग में हम टेक्सट्रैक के पीछे OCR में गोता लगाएँ।

OCR अमेज़न टेक्सट्रेक्ट के प्रकार के बारे में कोई विवरण नहीं है क्योंकि यह एक व्यावसायिक उत्पाद है। हालाँकि, हम विभिन्न प्रकार के दस्तावेजों को निकालने के लिए इसकी सटीकता और क्षमता को समझने के लिए सबसे लोकप्रिय ओपन-सोर्स OCR, "Tesseract" में से एक से तुलना कर सकते हैं।

AWS बनावट OCR
AWS बनावट OCR (स्रोत: AWS वेबसाइट)

Tesseract OCR LSTM पर आधारित है, जो एक गहन शिक्षण-आधारित तंत्रिका नेटवर्क वास्तुकला है जो पाठ डेटा पर असाधारण रूप से अच्छा प्रदर्शन करता है। निम्नलिखित दस्तावेजों के प्रारूप हैं जो टेसरेक्ट का समर्थन करते हैं: सादा पाठ, hOCR (HTML), पीडीएफ, अदृश्य-पाठ-केवल पीडीएफ, टीएसवी। इसमें यूनिकोड (UTF-8) का समर्थन है और यह 100 से अधिक भाषाओं का समर्थन करता है। हालाँकि, जैसा कि सभी कोड ओपन-सोर्स हैं, इसे अन्य भाषाओं को पहचानने के लिए प्रशिक्षित किया जा सकता है, लेकिन इसके लिए गहरी सीखने और कंप्यूटर विज़न विशेषज्ञता की आवश्यकता होती है। जब यह तालिका और कुंजी-मूल्य जोड़ी निष्कर्षण की बात आती है, तो टेसरैक्ट विफल हो जाता है। फिर भी, हम इस समस्या को हल करने के लिए कस्टम पाइपलाइन का निर्माण कर सकते हैं।

टेक्सट्रैक ओसीआर एक गहन सीखने-आधारित तंत्रिका नेटवर्क वास्तुकला भी है, लेकिन यह पूरी तरह से अनुकूलन या कस्टम डेटासेट पर प्रशिक्षित नहीं किया जा सकता है। इसका काम दस्तावेज़ के अंदर मौजूद सभी डेटा को पार्स करना और निकालना है। हालाँकि, Textract अपने डेटा को स्वचालित रूप से ट्यून करता है और यदि कोई मानव निकाली गई जानकारी (लूप में मानव) का सत्यापन करता है, तो उसे जाने पर उच्च सटीकता प्राप्त होती है। टेबल एक्सट्रैक्शन और की-वैल्यू पेयर एक्सट्रैक्शन जैसे कार्यों के लिए, टेक्सट्रैक एक उचित काम करता है जो टेसरैक्ट की तुलना में अधिक सटीकता प्राप्त करता है। लेकिन यह केवल कुछ भाषाओं और दस्तावेज़ प्रारूपों तक सीमित है।

नीचे कुछ दस्तावेज़ प्रकार दिए गए हैं, जिन्हें AWS टेक्सट्रैक का उपयोग करके संसाधित किया जा सकता है:

  • नियमित चालान / बिल
  • वित्तीय दस्तावेज
  • चिकित्सा दस्तावेज
  • हस्तलिखित दस्तावेज
  • Payslips या कर्मचारी दस्तावेज़

अगले भाग में, हम Textract Python API को देखें।


बुद्धिमान की तलाश है अपने दस्तावेजों से जानकारी निकालने के लिए ओसीआर समाधान? वहां जाओ नैनोनेट्स किसी भी भाषा में किसी भी प्रारूप में दस्तावेजों से पाठ निकालने के लिए।


Amazon Textract API का उपयोग विभिन्न प्रोग्रामिंग भाषाओं में किया जा सकता है। इस खंड में, हम पायथन के साथ टेक्सट्रैक का उपयोग करके कुंजी-मूल्य निष्कर्षण का एक कोड-ब्लॉक देख रहे हैं। भाषा और एपीआई समर्थन के बारे में अधिक जानकारी के लिए यहां डॉक्स देखें।

यह कोड स्निपेट एक उदाहरण है कि हम टेक्सट्रैक के पायथन एपीआई का उपयोग करने वाले दस्तावेजों पर कुंजी-मूल्य जोड़ी निष्कर्षण कैसे कर सकते हैं। इस कार्य को करने के लिए, हमें AWS डैशबोर्ड पर API कुंजी को भी कॉन्फ़िगर करना होगा। अब कोड स्निपेट में गोता लगाएँ,

सबसे पहले, हम दस्तावेजों को AWS में धकेलने और निकाले गए पाठ को संसाधित करने के लिए सभी आवश्यक पैकेजों का आयात करते हैं।

import boto3
import sys
import re
import json

अगला, हमारे पास एक फ़ंक्शन है जिसका नाम है get_kv_mapयहाँ में हम उपयोग करते हैं boto3 अमेज़ॅन टेक्सट्रेक एपीआई के साथ संवाद करने, दस्तावेज़ अपलोड करने और ब्लॉक प्रतिक्रिया लाने के लिए। अब हम 'ब्लॉक टाइप' की जाँच करके सभी कुंजी-मूल्य जोड़े प्राप्त करते हैं और इसे शब्दकोशों में वापस करते हैं।

def get_kv_map(file_name): with open(file_name, 'rb') as file: img_test = file.read() bytes_test = bytearray(img_test) print('Image loaded', file_name) # process using image bytes client = boto3.client('textract') response = client.analyze_document(Document={'Bytes': bytes_test}, FeatureTypes=['FORMS']) # Get the text blocks blocks=response['Blocks'] # get key and value maps key_map = {} value_map = {} block_map = {} for block in blocks: block_id = block['Id'] block_map[block_id] = block if block['BlockType'] == "KEY_VALUE_SET": if 'KEY' in block['EntityTypes']: key_map[block_id] = block else: value_map[block_id] = block return key_map, value_map, block_map

उसके बाद, हमारे पास एक फ़ंक्शन है जो ब्लॉक आइटम का उपयोग करके निकाले गए कुंजी-मूल्य जोड़े के बीच संबंध प्राप्त करता है। असल में, ब्लॉक फ़ंक्शन (JSON) में मौजूद संबंधों का उपयोग करके यह फ़ंक्शन दस्तावेज़ में कुंजियों और मूल्यों को जोड़ता है।

def get_kv_relationship(key_map, value_map, block_map): kvs = {} for block_id, key_block in key_map.items(): value_block = find_value_block(key_block, value_map) key = get_text(key_block, block_map) val = get_text(value_block, block_map) kvs[key] = val return kvs def find_value_block(key_block, value_map): for relationship in key_block['Relationships']: if relationship['Type'] == 'VALUE': for value_id in relationship['Ids']: value_block = value_map[value_id] return value_block

अंत में, हम सहेजे गए कुंजी-मूल्य जोड़े में मौजूद पाठ को वापस करते हैं।

def get_text(result, blocks_map): text = '' if 'Relationships' in result: for relationship in result['Relationships']: if relationship['Type'] == 'CHILD': for child_id in relationship['Ids']: word = blocks_map[child_id] if word['BlockType'] == 'WORD': text += word['Text'] + ' ' if word['BlockType'] == 'SELECTION_ELEMENT': if word['SelectionStatus'] == 'SELECTED': text += 'X' return text def print_kvs(kvs): for key, value in kvs.items(): print(key, ":", value) def search_value(kvs, search_key): for key, value in kvs.items(): if re.search(search_key, key, re.IGNORECASE): return value def main(file_name): key_map, value_map, block_map = get_kv_map(file_name) # Get Key Value relationship kvs = get_kv_relationship(key_map, value_map, block_map) print("nn== FOUND KEY : VALUE pairs ===n") print_kvs(kvs) # Start searching a key value while input('n Do you want to search a value for a key? (enter "n" for exit) ') != 'n': search_key = input('n Enter a search key:') print('The value is:', search_value(kvs, search_key)) if __name__ == "__main__": file_name = sys.argv[1] main(file_name)

इस प्रकार, हम विभिन्न सूचना निष्कर्षण कार्यों को करने के लिए एडब्ल्यूएस टेक्सट्रैक एपीआई का उपयोग कर सकते हैं। फ़ंक्शन / दृष्टिकोण अधिकांश प्रोग्रामिंग भाषाओं के समान है। यदि हम एपीआई का उपयोग कर रहे हैं तो हम अपने उपयोग के मामलों के आधार पर दृष्टिकोण को भी अनुकूलित कर सकते हैं।


दस्तावेजों से डेटा प्रविष्टि को स्वचालित करना चाहते हैं? नैनोनेट्स एआई आधारित ओसीआर समाधान संरचित / असंरचित दस्तावेजों से महत्वपूर्ण जानकारी निकालने में मदद कर सकता है और इस प्रक्रिया को ऑटो-पायलट पर डाल सकता है!


AWS Textract का उपयोग करने के पेशेवरों और विपक्ष

पेशेवरों:

AWS सेवाओं के साथ आसान सेटअप: अन्य प्रदाताओं की तुलना में एक और एडब्ल्यूएस सेवा के साथ टेक्सट्रैक स्थापित करना एक आसान काम है। उदाहरण के लिए, Amazon DynamoDB या S3 के साथ निकाले गए दस्तावेज़ की जानकारी को एक ऐड-ऑन कॉन्फ़िगर करके किया जा सकता है।

सुरक्षित: अमेज़न टेक्सट्रेक्ट AWS साझा जिम्मेदारी मॉडल के अनुरूप है, जिसमें डेटा सुरक्षा के लिए नियम और दिशानिर्देश शामिल हैं। AWS उन सभी वैश्विक सेवाओं की सुरक्षा के लिए जिम्मेदार है जो सभी AWS सेवाएँ चलाती हैं; इसलिए हमें अपने डेटा के लीक होने या किसी अन्य द्वारा उपयोग किए जाने के बारे में चिंता करने की आवश्यकता नहीं है।

विपक्ष:

कस्टम फ़ील्ड निकालने में असमर्थता: एक इनवॉइस में कई डेटा फ़ील्ड हो सकते हैं, इनवॉइस आईडी, ड्यू डेट, ट्रांज़ेक्शन डेट आदि। लेकिन अगर हम इनवॉइस से कस्टम फील्ड निकालना चाहते हैं, तो जीएसटी नंबर या बैंक की जानकारी, टेक्सट्रेक खराब काम करता है।

अपस्ट्रीम और डाउनस्ट्रीम प्रदाताओं के साथ एकीकरण: Textract आपको विभिन्न प्रदाताओं के साथ आसानी से एकीकृत करने की अनुमति नहीं देता है, उदाहरण के लिए, हमें तीसरे पक्ष की सेवा के साथ एक आरपीए पाइपलाइन का निर्माण करना होगा; उपयुक्त प्लगइन्स ढूंढना मुश्किल होगा जो टेक्सट्रेक को सूट करते हैं।

टेबल हेडर को परिभाषित करने की क्षमता: टेबल निष्कर्षण कार्यों के लिए, टेक्स्ट्रेक आपको टेबल हेडर को परिभाषित करने की अनुमति नहीं देता है। इसलिए, किसी दस्तावेज़ में किसी विशेष स्तंभ या तालिका को खोजना या खोजना आसान नहीं होगा।

कोई धोखाधड़ी चेक नहीं: आधुनिक ओसीआर अब यह पता लगाने में सक्षम हैं कि किसी दिए गए दस्तावेज मूल या नकली हैं तारीखों को सत्यापित करने और पिक्सेलित क्षेत्रों को खोजने के द्वारा। AWS Textract इस के साथ नहीं आता है, इसका एकमात्र काम अपलोड किए गए दस्तावेज़ से सभी पाठ चुनना है।

कोई ऊर्ध्वाधर पाठ निष्कर्षण: कुछ दस्तावेजों में, इनवॉइस नंबर या पते एक ऊर्ध्वाधर संरेखण में पाए जा सकते हैं। वर्तमान में, AWS केवल एक मामूली इन-प्लेन घुमाव के साथ क्षैतिज पाठ निष्कर्षण का समर्थन करता है।

भाषा सीमा: अमेज़ॅन टेक्सट्रैक अंग्रेजी, स्पेनिश, जर्मन, फ्रेंच, इतालवी और पुर्तगाली पाठ का पता लगाने का समर्थन करता है। अमेज़ॅन टेक्सट्रैक अपने आउटपुट में पाई गई भाषा को वापस नहीं लौटाएगा।

सब कुछ बादल: टेक्सट्रैक के साथ संसाधित कोई भी दस्तावेज़ क्लाउड में जाता है, केवल कुछ क्षेत्रों का समर्थन करता है। अधिक जानकारी यहाँ उत्पन्न करें। हालांकि, कुछ कंपनियां गोपनीयता या कानूनी आवश्यकताओं जैसे कारणों के लिए अपने दस्तावेज़ों को क्लाउड पर लेने में रुचि नहीं ले सकती हैं। फिर भी, दुर्भाग्य से, एडब्ल्यूएस टेक्सट्रैक दस्तावेज़ प्रसंस्करण के लिए किसी भी आधार पर तैनाती का समर्थन नहीं करता है।

मुकरना: यदि हमारी सटीकता दस्तावेजों के एक समूह के लिए सूचना निष्कर्षण कार्यों पर कम है, तो Textract हमें उन्हें फिर से प्रशिक्षित करने की अनुमति नहीं देता है। इसे हल करने के लिए, हमें फिर से एक मानव समीक्षा वर्कफ़्लो में निवेश करना होगा, जहां एक ऑपरेटर को गलत तरीके से निकाले गए मानों को मैन्युअल रूप से सत्यापित और एनोटेट करना होगा, जो फिर से समय लेने वाला है।

निष्कर्ष

हमें उम्मीद है कि AWS टेक्स्टट्रैक्ट की यह समीक्षा उपयोगी रही होगी क्योंकि आप अपने दस्तावेज़ों से डेटा निष्कर्षण/पाठ पहचान के लिए विभिन्न समाधानों पर विचार कर रहे हैं।

यदि आप समीक्षा की तलाश में हैं या तो हमारे पास समान ब्रेकडाउन हैं कोफ़ैक्स के लिए विकल्प or Google विज़न.

हम नवीनतम परिवर्तनों को कवर करने के लिए इस पोस्ट को समय-समय पर अपडेट करते रहेंगे। अधिक जानकारी के लिए ओसीआर सॉफ्टवेयर यहाँ एक है विस्तृत समीक्षा आज बाजार में उपलब्ध शीर्ष ओसीआर समाधानों में से।

कृपया टिप्पणी अनुभाग में अमेज़ॅन के टेक्स्ट्रेक्ट समाधान का उपयोग करने के बारे में अपने विचार और प्रश्न जोड़ें।

स्रोत: AWS वेबसाइट से हीरो की छवि

समय टिकट:

से अधिक एअर इंडिया और मशीन लर्निंग