विभिन्न उद्योगों की कंपनियां बड़ी मात्रा में पीडीएफ दस्तावेज़ बनाती हैं, स्कैन करती हैं और संग्रहीत करती हैं। कई मामलों में, सामग्री पाठ-भारी होती है और अक्सर एक अलग भाषा में लिखी जाती है और अनुवाद की आवश्यकता होती है। इसे संबोधित करने के लिए, आपको इन पीडीएफ के भीतर सामग्री निकालने और उन्हें जल्दी और लागत-कुशलता से अनुवाद करने के लिए एक स्वचालित समाधान की आवश्यकता है।
कई व्यवसायों में विविध वैश्विक उपयोगकर्ता होते हैं और उनके बीच अंतर-भाषी संचार को सक्षम करने के लिए पाठ का अनुवाद करने की आवश्यकता होती है। यह एक मानवीय, धीमा और महँगा प्रयास है। मूल दस्तावेज़ स्वरूपण को बनाए रखते हुए दस्तावेज़ों का अनुवाद करने के लिए एक स्केलेबल, विश्वसनीय और लागत प्रभावी समाधान खोजने की आवश्यकता है।
स्वास्थ्य सेवा जैसे क्षेत्रों के लिए, नियामक आवश्यकताओं के कारण, अनुवादित दस्तावेज़ों को मशीन-अनुवादित दस्तावेज़ की वैधता को सत्यापित करने के लिए लूप में एक अतिरिक्त मानव की आवश्यकता होती है।
यदि अनुवादित दस्तावेज़ मूल स्वरूपण और संरचना को बरकरार नहीं रखता है, तो यह अपना संदर्भ खो देता है। इससे मानव समीक्षक के लिए सत्यापन करना और सुधार करना मुश्किल हो सकता है।
इस पोस्ट में, हम प्रदर्शित करते हैं कि मूल दस्तावेज़ संरचना को बनाए रखते हुए और ज्यामिति-आधारित दृष्टिकोण का उपयोग करते हुए स्कैन किए गए पीडीएफ से एक नया अनुवादित पीडीएफ कैसे बनाया जाए। अमेज़न टेक्सट्रेक, अमेज़न अनुवाद, तथा अपाचे पीडीएफबॉक्स.
समाधान अवलोकन
इस पोस्ट में प्रस्तुत समाधान निम्नलिखित घटकों का उपयोग करता है:
- अमेज़न टेक्सट्रेक - एक पूरी तरह से प्रबंधित मशीन लर्निंग (एमएल) सेवा जो स्वचालित रूप से स्कैन किए गए दस्तावेज़ों से मुद्रित पाठ, लिखावट और अन्य डेटा निकालती है जो फॉर्म और तालिकाओं से डेटा को पहचानने, समझने और निकालने के लिए सरल ऑप्टिकल कैरेक्टर रिकग्निशन (ओसीआर) से परे जाती है। अमेज़ॅन टेक्स्टट्रैक्ट वित्तीय रिपोर्ट, मेडिकल रिकॉर्ड और कर फ़ॉर्म सहित विभिन्न दस्तावेज़ों में टेक्स्ट का पता लगा सकता है।
- अमेज़न अनुवाद - एक तंत्रिका मशीन अनुवाद सेवा जो तेज़, उच्च-गुणवत्ता और किफायती भाषा अनुवाद प्रदान करती है। अमेज़ॅन ट्रांसलेट आपकी अनुवाद लागत को कम करते हुए 2,970 से अधिक भाषा युग्मों में उच्च-गुणवत्ता वाली ऑन-डिमांड और बैच अनुवाद क्षमताएं प्रदान करता है।
- पीडीएफ अनुवाद - जावा में लिखी गई और प्रकाशित की गई एक ओपन-सोर्स लाइब्रेरी GitHub में AWS नमूने। इस लाइब्रेरी में Amazon Texttract और Amazon Translate के साथ आपकी वांछित भाषा में अनुवादित पीडीएफ दस्तावेज़ तैयार करने के तर्क शामिल हैं। यह पीडीएफ दस्तावेज़ बनाने के लिए ओपन-सोर्स जावा लाइब्रेरी अपाचे पीडीएफबॉक्स का भी उपयोग करता है। उदाहरण के लिए, अन्य प्रोग्रामिंग भाषाओं में समान पीडीएफ प्रोसेसिंग लाइब्रेरी उपलब्ध हैं नोड पीडीएफबॉक्स.
मशीनी अनुवाद करते समय, आपके सामने ऐसी परिस्थितियाँ आ सकती हैं जहाँ आप पाठ के विशिष्ट अनुभागों को अनुवादित होने से बचाना चाहते हैं, जैसे नाम या विशिष्ट पहचानकर्ता। अमेज़ॅन ट्रांसलेट टैग संशोधनों की अनुमति देता है, जो आपको यह निर्दिष्ट करने की अनुमति देता है कि किस पाठ का अनुवाद नहीं किया जाना चाहिए। अमेज़ॅन ट्रांसलेट औपचारिकता अनुकूलन का भी समर्थन करता है, जो आपको अपने अनुवाद आउटपुट में औपचारिकता के स्तर को अनुकूलित करने की अनुमति देता है।
Amazon Texttract सीमाओं के विवरण के लिए देखें Amazon Textract में कोटा.
समाधान उन भाषाओं तक ही सीमित है जिन्हें अमेज़ॅन टेक्स्टट्रैक्ट द्वारा निकाला जा सकता है, जो वर्तमान में अंग्रेजी, स्पेनिश, इतालवी, पुर्तगाली, फ्रेंच और जर्मन का समर्थन करता है। ये भाषाएँ Amazon Translate द्वारा भी समर्थित हैं। अमेज़ॅन ट्रांसलेट द्वारा समर्थित भाषाओं की पूरी सूची के लिए, देखें समर्थित भाषाएं और भाषा कोड.
हम अंग्रेजी से स्पेनिश में पाठ का अनुवाद प्रदर्शित करने के लिए निम्नलिखित पीडीएफ का उपयोग करते हैं। समाधान बिना किसी फ़ॉर्मेटिंग के अनुवादित दस्तावेज़ तैयार करने का भी समर्थन करता है। अनूदित पाठ की स्थिति बनी रहती है। स्रोत और अनुवादित पीडीएफ दस्तावेज़ भी इसमें पाए जा सकते हैं AWS नमूने GitHub रेपो.
निम्नलिखित अनुभागों में, हम प्रदर्शित करते हैं कि स्थानीय मशीन पर अनुवाद कोड कैसे चलाया जाए और अनुवाद कोड को अधिक विस्तार से देखें।
.. पूर्वापेक्षाएँ
आरंभ करने से पहले, अपना AWS खाता सेट करें और AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई)। टेक्स्टट्रैक्ट और ट्रांसलेट जैसी किसी भी AWS सेवाओं तक पहुंच के लिए, उपयुक्त IAM अनुमतियों की आवश्यकता होती है। हम कम से कम विशेषाधिकार वाली अनुमतियों का उपयोग करने की अनुशंसा करते हैं। IAM अनुमतियों के बारे में अधिक जानने के लिए देखें आईएएम में नीतियां और अनुमतियां और Amazon Texttract IAM के साथ कैसे काम करता है और Amazon Translate IAM के साथ कैसे काम करता है.
स्थानीय मशीन पर अनुवाद कोड चलाएँ
यह समाधान पीडीएफ दस्तावेज़ को निकालने और अनुवाद करने के लिए स्टैंडअलोन जावा कोड पर केंद्रित है। यह सर्वोत्तम-अनुवादित पीडीएफ दस्तावेज़ प्राप्त करने के लिए आसान परीक्षण और अनुकूलन के लिए है। फिर कोड को AWS में तैनात करने और चलाने के लिए एक स्वचालित समाधान में एकीकृत किया जा सकता है। देखना Amazon Translate और Amazon Textract का उपयोग करके पीडीएफ दस्तावेजों का अनुवाद एक नमूना वास्तुकला के लिए जो उपयोग करता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) दस्तावेज़ों को संग्रहीत करने के लिए और AWS लाम्बा कोड चलाने के लिए.
किसी स्थानीय मशीन पर कोड चलाने के लिए, निम्नलिखित चरणों को पूरा करें। कोड उदाहरण पर उपलब्ध हैं गिटहब रेपो।
- GitHub रेपो को क्लोन करें:
- निम्न कमांड चलाएं:
- अंग्रेजी से स्पेनिश में अनुवाद करने के लिए निम्नलिखित कमांड चलाएँ:
मूल स्वरूपण के साथ और उसके बिना, दस्तावेज़ फ़ोल्डर में दो अनुवादित पीडीएफ दस्तावेज़ बनाए जाते हैं (SampleOutput-es.pdf
और SampleOutput-min-es.pdf
).
अनुवादित पीडीएफ उत्पन्न करने के लिए कोड
निम्नलिखित कोड स्निपेट दिखाते हैं कि पीडीएफ दस्तावेज़ कैसे लें और संबंधित अनुवादित पीडीएफ दस्तावेज़ कैसे बनाएं। यह अमेज़ॅन टेक्स्टट्रैक्ट का उपयोग करके टेक्स्ट को निकालता है और छवि में एक परत के रूप में अनुवादित टेक्स्ट को जोड़कर अनुवादित पीडीएफ बनाता है। यह पोस्ट में दिखाए गए समाधान पर आधारित है अमेज़ॅन टेक्स्टट्रैक्ट के साथ स्वचालित रूप से स्कैन किए गए दस्तावेज़ों से खोजने योग्य पीडीएफ उत्पन्न करना.
कोड को पहले अमेज़ॅन टेक्स्टट्रैक्ट के साथ टेक्स्ट की प्रत्येक पंक्ति मिलती है। अमेज़ॅन ट्रांसलेट का उपयोग अनुवादित पाठ प्राप्त करने और अनुवादित पाठ की ज्यामिति को सहेजने के लिए किया जाता है।
फ़ॉन्ट आकार की गणना निम्नानुसार की जाती है और इसे आसानी से कॉन्फ़िगर किया जा सकता है:
अनुवादित पीडीएफ सहेजे गए ज्यामिति और अनुवादित पाठ से बनाया गया है। अनुवादित पाठ के रंग में परिवर्तन आसानी से कॉन्फ़िगर किया जा सकता है।
निम्नलिखित छवि मूल स्वरूपण के साथ स्पेनिश में अनुवादित दस्तावेज़ को दिखाती है (SampleOutput-es.pdf
).
निम्नलिखित छवि बिना किसी फ़ॉर्मेटिंग के स्पैनिश में अनुवादित पीडीएफ दिखाती है (SampleOutput-min-es.pdf
).
प्रसंस्करण समय
रोजगार आवेदन पीडीएफ को निकालने, संसाधित करने और अनुवादित पीडीएफ को प्रस्तुत करने में लगभग 10 सेकंड का समय लगा। जैसे टेक्स्ट हेवी दस्तावेज़ के लिए प्रसंस्करण समय ब्रिटेन के उत्तर अमरीकी उपनिवेशें द्वारा 4 जुलाई 1776 को की गयी स्वतंत्रता - घोषणा पीडीएफ को एक मिनट से भी कम समय लगा।
लागत
अमेज़ॅन टेक्स्टट्रैक्ट के साथ, आप संसाधित पृष्ठों और छवियों की संख्या के आधार पर भुगतान करते हैं। अमेज़ॅन ट्रांसलेट के साथ, आप संसाधित होने वाले टेक्स्ट वर्णों की संख्या के आधार पर भुगतान करते हैं। को देखें अमेज़ॅन टेक्सट्रेक मूल्य निर्धारण और अमेज़न अनुवाद मूल्य निर्धारण वास्तविक लागतों के लिए।
निष्कर्ष
इस पोस्ट में दिखाया गया है कि मूल दस्तावेज़ संरचना को बनाए रखते हुए अनुवादित पीडीएफ दस्तावेज़ तैयार करने के लिए अमेज़ॅन टेक्स्टट्रैक्ट और अमेज़ॅन ट्रांसलेट का उपयोग कैसे करें। आप अनुवाद की गुणवत्ता में सुधार के लिए वैकल्पिक रूप से अमेज़ॅन टेक्स्टट्रैक्ट परिणामों को पोस्टप्रोसेस कर सकते हैं, उदाहरण के लिए निकाले गए शब्दों को एमएल-आधारित वर्तनी जांच के माध्यम से पारित किया जा सकता है जैसे सिमस्पेल डेटा सत्यापन के लिए, या क्लस्टरिंग एल्गोरिदम का उपयोग रीडिंग ऑर्डर को संरक्षित करने के लिए किया जा सकता है। आप भी उपयोग कर सकते हैं अमेज़न संवर्धित ऐ (अमेज़ॅन ए2आई) मानव समीक्षा वर्कफ़्लो बनाने के लिए जहां आप अधिक सटीकता और संदर्भ प्रदान करने के लिए मूल और अनुवादित पीडीएफ दस्तावेजों की समीक्षा करने के लिए अपने निजी कार्यबल का उपयोग कर सकते हैं। देखना Amazon Translate और Amazon Augmented AI के साथ मानव समीक्षा वर्कफ़्लोज़ डिज़ाइन करना और डोमेन-विशिष्ट और भाषा-विशिष्ट अनुकूलन के साथ बहुभाषी दस्तावेज़ अनुवाद वर्कफ़्लो का निर्माण आरंभ करना।
लेखक के बारे में
अनुभा सिंघल AWS प्रोफेशनल सर्विसेज संगठन में अमेज़न वेब सर्विसेज में एक वरिष्ठ क्लाउड आर्किटेक्ट हैं।
शॉन लॉरेंस पहले AWS में फ्रंट एंड इंजीनियर थे। उन्होंने AWS प्रोफेशनल सर्विसेज संगठन और अमेज़ॅन प्राइवेसी टीम में फ्रंट एंड डेवलपमेंट में विशेषज्ञता हासिल की।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/retain-original-pdf-formatting-to-view-translated-documents-with-amazon-textract-amazon-translate-and-pdfbox/
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 10
- 100
- 15% तक
- 20
- 7
- 970
- a
- About
- पहुँच
- लेखा
- शुद्धता
- के पार
- वास्तविक
- जोड़ने
- अतिरिक्त
- पता
- सस्ती
- एल्गोरिदम
- की अनुमति देता है
- भी
- वीरांगना
- अमेज़न टेक्सट्रेक
- अमेज़न अनुवाद
- अमेज़ॅन वेब सेवा
- an
- और
- कोई
- अपाचे
- आवेदन
- दृष्टिकोण
- उपयुक्त
- स्थापत्य
- हैं
- AS
- At
- संवर्धित
- स्वचालित
- स्वतः
- उपलब्ध
- एडब्ल्यूएस
- AWS व्यावसायिक सेवाएँ
- आधारित
- BE
- जा रहा है
- के बीच
- परे
- काली
- खंड
- ब्लॉक
- मुक्केबाज़ी
- निर्माण
- बनाता है
- व्यवसायों
- by
- परिकलित
- कर सकते हैं
- क्षमताओं
- मामलों
- परिवर्तन
- चरित्र
- चरित्र पहचान
- अक्षर
- बादल
- गुच्छन
- कोड
- रंग
- संचार
- पूरा
- कॉन्फ़िगर किया गया
- शामिल हैं
- सामग्री
- अंतर्वस्तु
- प्रसंग
- सुधार
- इसी
- प्रभावी लागत
- लागत
- बनाना
- बनाया
- बनाता है
- वर्तमान में
- अनुकूलन
- अनुकूलित
- तिथि
- बचाता है
- दिखाना
- तैनात
- वांछित
- विस्तार
- विवरण
- विकास
- विभिन्न
- मुश्किल
- कई
- दस्तावेज़
- दस्तावेजों
- नहीं करता है
- दो
- से प्रत्येक
- आसान
- आसानी
- प्रयास
- अन्य
- रोजगार
- सक्षम
- समाप्त
- इंजीनियर
- अंग्रेज़ी
- उदाहरण
- उदाहरण
- महंगा
- उद्धरण
- अर्क
- असत्य
- फास्ट
- भरना
- वित्तीय
- खोज
- प्रथम
- नाव
- केंद्रित
- निम्नलिखित
- इस प्रकार है
- के लिए
- पूर्व में
- रूपों
- पाया
- फ्रेंच
- से
- सामने
- फ़्रंट एंड
- फ्रंट एंड डेवलपमेंट
- पूर्ण
- पूरी तरह से
- उत्पन्न
- सृजन
- जर्मन
- मिल
- GitHub
- वैश्विक
- Go
- चला जाता है
- है
- he
- स्वास्थ्य सेवा
- mmmmm
- ऊंचाई
- यहाँ उत्पन्न करें
- उच्च गुणवत्ता
- मकान
- कैसे
- How To
- एचटीएमएल
- http
- HTTPS
- मानव
- पहचानकर्ता
- पहचान करना
- if
- की छवि
- छवियों
- में सुधार
- in
- अन्य में
- शामिल
- सहित
- उद्योगों
- निवेश
- एकीकृत
- में
- IT
- आईटी इस
- जावा
- भाषा
- भाषाऐं
- बड़ा
- परत
- जानें
- सीख रहा हूँ
- कम से कम
- बाएं
- कम
- स्तर
- पुस्तकालयों
- पुस्तकालय
- सीमाएं
- लाइन
- पंक्तियां
- सूची
- स्थानीय
- तर्क
- देखिए
- खो देता है
- मशीन
- यंत्र अधिगम
- बनाना
- कामयाब
- गाइड
- बहुत
- मई..
- मेडिकल
- मिनट
- ML
- संशोधनों
- अधिक
- नामों
- आवश्यकता
- जरूरत
- नया
- संख्या
- वस्तु
- ओसीआर
- of
- अक्सर
- on
- ऑन डिमांड
- खुला स्रोत
- आपरेशन
- ऑप्टिकल कैरेक्टर पहचान
- or
- आदेश
- संगठन
- मूल
- अन्य
- उत्पादन
- अपना
- पृष्ठ
- पृष्ठों
- जोड़े
- पारित कर दिया
- वेतन
- पीडीएफ
- प्रदर्शन
- अनुमतियाँ
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- पुर्तगाली
- स्थिति
- पद
- प्रस्तुत
- एकांत
- निजी
- विशेषाधिकार
- प्रक्रिया
- प्रसंस्कृत
- प्रसंस्करण
- पेशेवर
- प्रोग्रामिंग
- प्रोग्रामिंग की भाषाएँ
- प्रदान करना
- प्रदान करता है
- प्रकाशित
- गुणवत्ता
- जल्दी से
- पढ़ना
- मान्यता
- की सिफारिश
- अभिलेख
- क्षेत्र
- नियामक
- विश्वसनीय
- रिपोर्ट
- की आवश्यकता होती है
- आवश्यकताएँ
- की आवश्यकता होती है
- प्रतिबंधित
- परिणाम
- बनाए रखने के
- बनाए रखने की
- वापसी
- की समीक्षा
- रन
- सहेजें
- स्केलेबल
- स्कैन
- सेकंड
- वर्गों
- देखना
- वरिष्ठ
- सेवा
- सेवाएँ
- सेट
- चाहिए
- दिखाना
- पता चला
- दिखाया
- दिखाता है
- समान
- सरल
- स्थितियों
- आकार
- धीमा
- समाधान
- स्रोत
- स्पेनिश
- विशेषीकृत
- विशिष्ट
- स्टैंडअलोन
- शुरू
- कदम
- भंडारण
- की दुकान
- तार
- संरचना
- ऐसा
- समर्थित
- समर्थन करता है
- टैग
- लेना
- कर
- टीम
- परीक्षण
- से
- कि
- RSI
- स्रोत
- उन
- फिर
- वहाँ।
- इन
- इसका
- यहाँ
- पहर
- सेवा मेरे
- ले गया
- ऊपर का
- अनुवाद करना
- अनुवाद करें
- समझना
- अद्वितीय
- उपयोग
- प्रयुक्त
- उपयोगकर्ताओं
- का उपयोग करता है
- का उपयोग
- उपयोग
- सत्यापित करें
- सत्यापन
- विविधता
- विभिन्न
- सत्यापित
- कार्यक्षेत्र
- देखें
- संस्करणों
- था
- we
- वेब
- वेब सेवाओं
- कुंआ
- क्या
- कौन कौन से
- जब
- सफेद
- चौडाई
- साथ में
- अंदर
- बिना
- शब्द
- वर्कफ़्लो
- workflows
- कार्यबल
- कार्य
- लिखा हुआ
- आप
- आपका
- जेफिरनेट