अमेज़ॅन टेक्स्टट्रैक्ट और अमेज़ॅन पोली का उपयोग करके दृष्टिबाधित दस्तावेज़ों को सुनने में सक्षम करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

लास वेगास में 2021 एडब्ल्यूएस पुन: आविष्कार सम्मेलन में, हमने डेमो किया मेरे लिए पढ़ें एडब्ल्यूएस बिल्डर्स फेयर में - एक वेबसाइट जो नेत्रहीनों को दस्तावेजों को सुनने में मदद करती है।

बेहतर क्वालिटी के लिए देखें वीडियो यहाँ उत्पन्न करें.

अनुकूली तकनीक और पहुंच-योग्यता सुविधाएं अक्सर महंगी होती हैं, यदि वे बिल्कुल भी उपलब्ध हों। ऑडियो पुस्तकें दृष्टिबाधित लोगों को पढ़ने में मदद करती हैं। ऑडियो विवरण फिल्मों को सुलभ बनाता है। लेकिन जब सामग्री पहले से ही डिजीटल नहीं है तो आप क्या करते हैं?

यह पोस्ट AWS AI सेवाओं पर केंद्रित है अमेज़न टेक्सट्रेक और अमेज़ॅन पोली, जो बिगड़ा हुआ दृष्टि वाले लोगों को सशक्त बनाता है। रीड फॉर मी का सह-विकास जैक मार्चेटी ने किया था, जो दृष्टिबाधित हैं।

समाधान अवलोकन

एक घटना-संचालित, सर्वर रहित वास्तुकला और कई एआई सेवाओं के संयोजन के माध्यम से, हम किसी दस्तावेज़ की तस्वीर, या पाठ के साथ किसी भी छवि से कई भाषाओं में प्राकृतिक-ध्वनि वाली ऑडियो फ़ाइलें बना सकते हैं। उदाहरण के लिए, आईआरएस से एक पत्र, परिवार से एक छुट्टी कार्ड, या यहां तक कि एक फिल्म के लिए शुरुआती शीर्षक।

निम्नलिखित संदर्भ वास्तुकला, में प्रकाशित एडब्ल्यूएस वास्तुकला केंद्र एक उपयोगकर्ता के अपने फोन के साथ एक तस्वीर लेने और उस दस्तावेज़ के भीतर मिली सामग्री का एमपी3 चलाने के वर्कफ़्लो को दिखाता है।

वर्कफ़्लो में निम्न चरण शामिल हैं:

स्थिर सामग्री (एचटीएमएल, सीएसएस, जावास्क्रिप्ट) को होस्ट किया जाता है AWS प्रवर्धित करें.
अनाम उपयोगकर्ताओं को बैकएंड सेवाओं के लिए एक . के माध्यम से अस्थायी पहुंच प्रदान की जाती है अमेज़ॅन कॉग्निटो पहचान पूल।
छवि फ़ाइलें में संग्रहीत हैं अमेज़न सरल भंडारण सेवा (अमेज़न S3)।
एक उपयोगकर्ता के माध्यम से एक POST अनुरोध करता है अमेज़ॅन एपीआई गेटवे ऑडियो सेवा के लिए, जो एक एक्सप्रेस के समीप है AWS स्टेप फ़ंक्शंस कार्यप्रवाह।
चरण कार्य वर्कफ़्लो में निम्नलिखित चरण शामिल हैं:
1. अमेज़न टेक्सट्रेक छवि से पाठ निकालता है।
2. Amazon Comprehend पाठ की भाषा का पता लगाता है।
3. यदि लक्ष्य भाषा खोजी गई भाषा से भिन्न है, अमेज़न अनुवाद लक्ष्य भाषा में अनुवाद करता है।
4. अमेज़ॅन पोली टेक्स्ट का उपयोग करके आउटपुट के रूप में एक ऑडियो फ़ाइल बनाता है।
AWS स्टेप फ़ंक्शंस वर्कफ़्लो आउटपुट के रूप में एक ऑडियो फ़ाइल बनाता है और इसे Amazon S3 में MP3 प्रारूप में संग्रहीत करता है।
अमेज़ॅन एस 3 में संग्रहीत ऑडियो फ़ाइल के स्थान के साथ एक पूर्व-हस्ताक्षरित यूआरएल एपीआई गेटवे के माध्यम से उपयोगकर्ता के ब्राउज़र पर वापस भेज दिया जाता है। उपयोगकर्ता का मोबाइल डिवाइस पूर्व-हस्ताक्षरित URL का उपयोग करके ऑडियो फ़ाइल चलाता है।

निम्नलिखित अनुभागों में, हम उन कारणों पर चर्चा करते हैं कि हमने इस समाधान के लिए विशिष्ट सेवाओं, वास्तुकला पैटर्न और सेवा सुविधाओं को क्यों चुना।

AWS AI सेवाएं

कई एआई सेवाओं को पावर के लिए एक साथ तार-तार किया जाता है Read For Me:

Amazon Textract अपलोड की गई तस्वीर में टेक्स्ट की पहचान करता है।
अमेज़ॅन कॉम्प्रिहेंड भाषा निर्धारित करता है।
यदि उपयोगकर्ता चित्र में बोली जाने वाली भाषा से भिन्न भाषा चुनता है, तो हम Amazon Translate का उपयोग करके उसका अनुवाद करते हैं।
अमेज़ॅन पोली एमपी 3 फ़ाइल बनाता है। हम अमेज़ॅन पोली न्यूरल इंजन का लाभ उठाते हैं, जो अधिक प्राकृतिक, सजीव ऑडियो रिकॉर्डिंग बनाता है।

इन एआई सेवाओं का उपयोग करने का एक मुख्य लाभ यह है कि इसे अपनाने में आसानी होती है और इसमें बहुत कम या कोई कोर मशीन लर्निंग अनुभव की आवश्यकता नहीं होती है। सेवाएं एपीआई को उजागर करती हैं जिन्हें क्लाइंट कई प्रोग्रामिंग भाषाओं, जैसे कि पायथन और जावा में उपलब्ध कराए गए एसडीके का उपयोग कर सकते हैं।

रीड फॉर मी के साथ, हमने अंतर्निहित लिखा था AWS लाम्बा पायथन में कार्य करता है।

अजगर के लिए AWS SDK (Boto3)

RSI अजगर के लिए AWS SDK (Boto3) एडब्ल्यूएस सेवाओं के साथ बातचीत को सरल बनाता है। उदाहरण के लिए, पायथन कोड की निम्नलिखित पंक्तियाँ आपके द्वारा प्रदान की गई छवि या दस्तावेज़ में पाए गए पाठ को लौटाती हैं:

import boto3
client = boto3.client('textract')
response = client.detect_document_text(
Document={ 'S3Object': { 'Bucket': 'bucket-name', 'Name': 's3-key'
}
})
#do something with the response

सभी पायथन कोड व्यक्तिगत लैम्ब्डा कार्यों के भीतर चलाए जाते हैं। प्रावधान करने के लिए कोई सर्वर नहीं हैं और बनाए रखने के लिए कोई बुनियादी ढांचा नहीं है।

वास्तुकला पैटर्न

इस खंड में, हम समाधान में प्रयुक्त विभिन्न वास्तुकला पैटर्न पर चर्चा करते हैं।

serverless

हमने दो मुख्य कारणों से सर्वर रहित आर्किटेक्चर लागू किया: निर्माण की गति और लागत। बनाए रखने के लिए कोई अंतर्निहित हार्डवेयर या तैनात करने के लिए बुनियादी ढांचे के साथ, हमने पूरी तरह से व्यावसायिक तर्क कोड पर ध्यान केंद्रित किया और कुछ नहीं। इसने हमें कुछ ही दिनों में एक कार्यशील प्रोटोटाइप प्राप्त करने और चलाने की अनुमति दी। यदि उपयोगकर्ता सक्रिय रूप से चित्र अपलोड नहीं कर रहे हैं और रिकॉर्डिंग नहीं सुन रहे हैं, तो कुछ भी नहीं चल रहा है, और इसलिए भंडारण के बाहर कुछ भी खर्च नहीं हो रहा है। एक S3 जीवनचक्र प्रबंधन नियम 3 दिन के बाद अपलोड की गई छवियों और MP1 फ़ाइलों को हटा देता है, इसलिए संग्रहण लागत कम होती है।

तुल्यकालिक कार्यप्रवाह

जब आप सर्वर रहित कार्यप्रवाह बना रहे हों, तो यह समझना महत्वपूर्ण है कि एक सिंक्रोनस कॉल एसिंक्रोनस प्रक्रिया की तुलना में आर्किटेक्चर और उपयोगकर्ता अनुभव से अधिक समझ में आता है। रीड फॉर मी के साथ, हम शुरू में एसिंक्रोनस पथ पर चले गए और फ्रंट एंड के साथ द्वि-प्रत्यक्ष रूप से संवाद करने के लिए वेबसाकेट का उपयोग करने की योजना बनाई। हमारे वर्कफ़्लो में स्टेप फ़ंक्शंस वर्कफ़्लो से जुड़ी कनेक्शन आईडी खोजने के लिए एक चरण शामिल होगा और पूरा होने पर, फ्रंट एंड को अलर्ट करें। इस प्रक्रिया के बारे में अधिक जानकारी के लिए देखें पोल से पुश तक: Amazon API गेटवे REST API और WebSockets का उपयोग करके API को ट्रांसफ़ॉर्म करें.

हमने अंततः ऐसा नहीं करना चुना और एक्सप्रेस स्टेप फ़ंक्शंस का उपयोग किया जो सिंक्रोनस हैं। उपयोगकर्ता समझते हैं कि किसी छवि को संसाधित करना तत्काल नहीं होगा, लेकिन यह भी पता है कि इसमें 30 सेकंड या एक मिनट का समय नहीं लगेगा। हम एक ऐसे स्थान पर थे जहां अंतिम उपयोगकर्ता के लिए कुछ सेकंड संतोषजनक थे और वेबसाकेट के लाभ की आवश्यकता नहीं थी। इसने समग्र रूप से वर्कफ़्लो को सरल बनाया।

एक्सप्रेस चरण कार्य कार्यप्रवाह

आपके कोड को छोटे, अलग-अलग कार्यों में विभाजित करने की क्षमता बढ़िया नियंत्रण, आसान रखरखाव, और अधिक सटीक रूप से स्केल करने की क्षमता की अनुमति देती है। उदाहरण के लिए, यदि हमने निर्धारित किया है कि ऑडियो फ़ाइल बनाने के लिए अमेज़ॅन पोली को ट्रिगर करने वाला लैम्ब्डा फ़ंक्शन भाषा को निर्धारित करने वाले फ़ंक्शन की तुलना में धीमी गति से चल रहा था, तो हम दूसरों के लिए ऐसा किए बिना, अधिक मेमोरी जोड़कर, उस फ़ंक्शन को लंबवत रूप से स्केल कर सकते थे। इसी तरह, जब आप इसका दायरा और पहुंच सीमित करते हैं तो आप अपने लैम्ब्डा फ़ंक्शन क्या कर सकते हैं या एक्सेस कर सकते हैं, इसके विस्फोट त्रिज्या को सीमित करते हैं।

स्टेप फंक्शंस के साथ अपने वर्कफ़्लो को ऑर्केस्ट्रेट करने के लाभों में से एक है बिना किसी कोड को लिखे निर्णय प्रवाह तर्क को पेश करने की क्षमता।

हमारा Step Functions वर्कफ़्लो जटिल नहीं है। यह अनुवाद चरण तक रैखिक है। यदि हमें अनुवाद लैम्ब्डा फ़ंक्शन को कॉल करने की आवश्यकता नहीं है, तो यह हमारे लिए कम लागत वाला है, और उपयोगकर्ता के लिए एक तेज़ अनुभव है। हम इनपुट पेलोड में विशिष्ट कुंजी खोजने के लिए स्टेप फ़ंक्शंस कंसोल पर विज़ुअल डिज़ाइनर का उपयोग कर सकते हैं और, यदि यह मौजूद है, तो JSONPath का उपयोग करके एक फ़ंक्शन को दूसरे पर कॉल करें। उदाहरण के लिए, हमारे पेलोड में एक कुंजी शामिल है जिसे ट्रांसलेट कहा जाता है:

{ 
extracted_text: "hello world",
target_language: "es",
source_language: "en",
translate: true
}

स्टेप फ़ंक्शंस विज़ुअल डिज़ाइनर के भीतर, हम अनुवाद कुंजी ढूंढते हैं, और मिलान करने के लिए नियम सेट करते हैं।

नेतृत्वहीन वास्तुकला

एम्पलीफाई मेजबान फ्रंट-एंड कोड। फ्रंट एंड को रिएक्ट में लिखा गया है और सोर्स कोड को चेक किया गया है AWS कोडकॉमिट. स्थिर वेबसाइटों को परिनियोजित और प्रबंधित करने का प्रयास करने वाले उपयोगकर्ताओं के लिए एम्प्लीफाई कुछ समस्याओं का समाधान करता है। यदि आप इसे मैन्युअल रूप से कर रहे थे (स्थिर वेबसाइट होस्टिंग के लिए सेट अप S3 बकेट का उपयोग करके और इसके साथ फ्रंटिंग) अमेज़न CloudFront), हर बार जब आप परिनियोजन करते हैं तो आपको कैश को स्वयं समाप्त करना होगा। आपको अपनी खुद की सीआई/सीडी पाइपलाइन भी लिखनी होगी। Amplify आपके लिए इसे संभालता है।

यह एक हेडलेस आर्किटेक्चर की अनुमति देता है, जहां फ्रंट-एंड कोड को बैकएंड से अलग किया जाता है और प्रत्येक परत को दूसरे से स्वतंत्र रूप से प्रबंधित और स्केल किया जा सकता है।

विश्लेषण आईडी

पिछले अनुभाग में, हमने अपलोड किए गए चित्र को संसाधित करने और उससे एक एमपी3 फ़ाइल बनाने के लिए आर्किटेक्चर पैटर्न पर चर्चा की। आपके पास एक दस्तावेज़ वापस पढ़ा जाना एक महान पहला कदम है, लेकिन क्या होगा यदि आप केवल कुछ विशिष्ट जानना चाहते हैं बिना पूरी बात पढ़े? उदाहरण के लिए, आपको ऑनलाइन एक फॉर्म भरना होगा और अपना राज्य आईडी या पासपोर्ट नंबर, या शायद इसकी समाप्ति तिथि प्रदान करनी होगी। फिर आपको अपनी आईडी की एक तस्वीर लेनी होगी और इसे वापस पढ़ते समय, उस विशिष्ट भाग की प्रतीक्षा करनी होगी। वैकल्पिक रूप से, आप विश्लेषण आईडी का उपयोग कर सकते हैं।

एनालिसिस आईडी Amazon Textract की एक विशेषता है जो आपको दस्तावेज़ों को क्वेरी करने में सक्षम बनाती है। रीड फॉर मी में एक ड्रॉप-डाउन मेनू होता है जहां आप विशेष रूप से समाप्ति तिथि, जारी करने की तिथि या दस्तावेज़ संख्या पूछ सकते हैं। आप एक एमपी3 फ़ाइल बनाने के लिए उसी वर्कफ़्लो का उपयोग कर सकते हैं जो आपके विशिष्ट प्रश्न का उत्तर प्रदान करती है।

आप विश्लेषण आईडी सुविधा को यहां प्रदर्शित कर सकते हैं readforme.io/analyze.

अतिरिक्त पोली विशेषताएं

रीड फॉर मी विभिन्न भाषाओं और बोलियों का उपयोग करते हुए कई तंत्रिका आवाजें प्रदान करता है। ध्यान दें कि कई अन्य हैं आवाज आप इनमें से चुन सकते हैं, जिसे हमने लागू नहीं किया। जब कोई नई आवाज उपलब्ध होती है, तो इसका लाभ उठाने के लिए फ्रंट-एंड कोड और एक लैम्ब्डा फ़ंक्शन का अपडेट होता है।
पोली सेवा अन्य विकल्प भी प्रदान करती है जिन्हें हमने अभी तक रीड फॉर मी में शामिल नहीं किया है। उनमें समायोजन शामिल है आवाज की गति और भाषण चिह्न.

निष्कर्ष

इस पोस्ट में, हमने चर्चा की कि दृष्टिबाधित लोगों की सहायता के लिए AI और सर्वर रहित सहित कई AWS सेवाओं का उपयोग कैसे करें। आप रीड फॉर मी प्रोजेक्ट के बारे में अधिक जान सकते हैं और इसका उपयोग करके देख सकते हैं readforme.io. आप Amazon Textract के उदाहरण इस पर भी पा सकते हैं गीथहब रेपो. विश्लेषण आईडी के बारे में अधिक जानने के लिए, देखें Amazon Textract का उपयोग करके पहचान दस्तावेज़ों से डेटा निकालने के लिए समर्थन की घोषणा करना.

इस परियोजना के लिए स्रोत कोड ओपन-सोर्स किया जाएगा और जल्द ही एडब्ल्यूएस के सार्वजनिक गिटहब में जोड़ा जाएगा।

लेखक के बारे में

जैक मार्चेटी AWS में वरिष्ठ समाधान वास्तुकार हैं। सॉफ्टवेयर इंजीनियरिंग की पृष्ठभूमि के साथ, जैक मुख्य रूप से ग्राहकों को सर्वर रहित, घटना-संचालित आर्किटेक्चर को लागू करने में मदद करने पर केंद्रित है। उन्होंने 2013 में दूसरे एडब्ल्यूएस पुन: आविष्कार सम्मेलन में भाग लेने के बाद अपना पहला वितरित, क्लाउड-आधारित एप्लिकेशन बनाया और तब से जुड़ा हुआ है। AWS से पहले जैक ने अपने करियर का बड़ा हिस्सा दुनिया के कुछ सबसे बड़े ब्रांडों के लिए विज्ञापन एजेंसी के अंतरिक्ष निर्माण के अनुभवों में बिताया। जैक कानूनी रूप से नेत्रहीन है और अपनी पत्नी एरिन और बिल्ली मिनौ के साथ शिकागो में रहता है। वह एक पटकथा लेखक और निर्देशक भी हैं, जो क्रिसमस फिल्मों और हॉरर पर प्राथमिक ध्यान केंद्रित करते हैं। जैक की फिल्मोग्राफी यहां देखें IMDb इस पृष्ठ पर ज़ूम कई वीडियो ट्यूटोरियल और अन्य साहायक साधन प्रदान करता है।

अलक ईश्वरदास शिकागो, इलिनोइस में स्थित एडब्ल्यूएस में एक समाधान वास्तुकार है। वह व्यावसायिक चुनौतियों को हल करने के लिए एडब्ल्यूएस सेवाओं का उपयोग करके ग्राहकों को क्लाउड आर्किटेक्चर डिजाइन करने में मदद करने के बारे में भावुक है। उसके पास कंप्यूटर साइंस इंजीनियरिंग में मास्टर डिग्री है। एडब्ल्यूएस में शामिल होने से पहले, उन्होंने विभिन्न स्वास्थ्य संगठनों के लिए काम किया, और उन्हें जटिल प्रणालियों, प्रौद्योगिकी नवाचार और अनुसंधान को तैयार करने का गहन अनुभव है। वह अपनी बेटियों के साथ घूमती हैं और अपने खाली समय में बाहर घूमने जाती हैं।

स्वागत कुलकर्णी एडब्ल्यूएस में एक वरिष्ठ समाधान वास्तुकार और एआई/एमएल उत्साही हैं। उन्हें क्लाउड नेटिव सेवाओं और मशीन लर्निंग वाले ग्राहकों के लिए वास्तविक दुनिया की समस्याओं को हल करने का शौक है। काम के अलावा, स्वागत को यात्रा करना, पढ़ना और ध्यान करना पसंद है।

समय टिकट: मार्च २०,२०२१

से अधिक AWS मशीन लर्निंग

अमेज़ॅन बेडरॉक | पर सेल्फ-कंसिस्टेंसी प्रॉम्प्टिंग के साथ जेनरेटिव भाषा मॉडल का प्रदर्शन बढ़ाएं अमेज़न वेब सेवाएँ

AWS मशीन लर्निंग

स्रोत नोड: 1551223

समय टिकट: जून 28, 2022

Amazon SageMaker जम्पस्टार्ट समाधान प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में मशीन लर्निंग के माध्यम से व्यावसायिक समस्याओं को शुरू से अंत तक हल करें। लंबवत खोज। ऐ।

Amazon SageMaker जम्पस्टार्ट समाधानों में मशीन लर्निंग के माध्यम से व्यवसाय की समस्याओं को शुरू से अंत तक हल करें

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1733089

समय टिकट: अक्टूबर 31, 2022

दृष्टिबाधित लोगों को Amazon Textract और Amazon Poly का उपयोग करके दस्तावेज़ सुनने में सक्षम करें