डिजिटल दुनिया में, स्थानीय भाषा में जानकारी प्रदान करना कोई नई बात नहीं है, लेकिन यह एक थकाऊ और महंगा काम हो सकता है। मशीन लर्निंग (एमएल) और प्राकृतिक भाषा प्रसंस्करण (एनएलपी) में प्रगति ने इस कार्य को बहुत आसान और कम खर्चीला बना दिया है।
हमने बहुभाषी डेटा और दस्तावेज़ प्रसंस्करण कार्यभार के लिए एमएल को अपनाने में वृद्धि देखी है। एंटरप्राइज़ और सरकारी ग्राहक स्वचालित ML अनुवाद सेवाओं का लाभ उठाने के लिए अपने मैन्युअल अनुवाद कार्यभार को स्थानांतरित कर रहे हैं। अमेज़न अनुवाद एक है तंत्रिका मशीन अनुवाद ऐसी सेवा जो कई हज़ार भाषा युग्मों के बीच तेज़, उच्च-गुणवत्ता और किफ़ायती भाषा अनुवाद प्रदान करती है जिसका उपयोग सिंक्रोनस (रीयल-टाइम) या एसिंक्रोनस अनुवाद कार्यों के लिए किया जा सकता है। उपलब्ध अनुवाद युग्मों की पूरी सूची के लिए, देखें समर्थित भाषाएं और भाषा कोड.
अपने अनुवाद कार्यभार को स्थानांतरित करने और आधुनिक बनाने वाले ग्राहकों को अपने व्यावसायिक डोमेन के लिए अनुवादों को अनुकूलित करने की क्षमता की आवश्यकता होती है। एक अनुवाद कार्यभार को क्षेत्रीय भाषा की बोलियों या उपयोग के अनुकूल होने की क्षमता की भी आवश्यकता हो सकती है। उदाहरण के लिए, "बुजुर्ग" का स्पेनिश अनुवाद anciano(a) है, लेकिन प्यूर्टो रिको में envejeciente शब्द को प्राथमिकता दी जाती है।
इस पोस्ट में, हम प्रदर्शित करते हैं कि अमेज़ॅन ट्रांसलेट के एक्टिव कस्टम ट्रांसलेशन (एसीटी) फीचर को कैसे शामिल किया जाए। हम डोमेन- और भाषा-विशिष्ट अनुकूलन के साथ एक बहुभाषी दस्तावेज़ अनुवाद वर्कफ़्लो बनाने के लिए एक समाधान का प्रस्ताव करते हैं, जिसकी आप समीक्षा कर सकते हैं और परिणामों को लगातार बेहतर बनाने और अंतिम उपयोगकर्ताओं को प्रसन्न करने के लिए आवश्यकतानुसार बढ़ा सकते हैं।
समाधान अवलोकन
ACT एक कस्टम अनुवाद मॉडल बनाने और बनाए रखने की आवश्यकता के बिना कस्टम-अनुवादित आउटपुट का उत्पादन करता है। एसीटी का उपयोग करते हुए, अमेज़ॅन ट्रांसलेट आपके पसंदीदा अनुवाद उदाहरणों का उपयोग आपके अनुवाद परिणाम को अनुकूलित करने के लिए समानांतर डेटा के रूप में करेगा, जिससे एक नया मशीन लर्निंग मॉडल बनाने और प्रशिक्षित करने के लिए आवश्यक समय और लागत समाप्त हो जाएगी।
इस पोस्ट में शामिल समाधान बताता है कि मानव-इन-द-लूप वर्कफ़्लो का उपयोग कैसे करें अमेज़न संवर्धित ऐ (अमेज़ॅन ए2आई) अनुकूलित अनुवाद को लगातार बेहतर बनाने के लिए। Amazon A2I आपके ML वर्कफ़्लो में मानवीय निरीक्षण को एकीकृत करने का एक आसान तरीका प्रदान करता है, जिसमें किसी ML अनुभव की आवश्यकता नहीं होती है। Amazon A2I मानव निर्णय और AI को किसी भी ML एप्लिकेशन में एकीकृत करना आसान बनाता है, चाहे वह AWS पर चलाया जाए या किसी अन्य प्लेटफॉर्म पर।
अधिक जानकारी के लिए देखें Amazon Translate और Amazon Augmented AI के साथ मानव समीक्षा वर्कफ़्लोज़ डिज़ाइन करना पद।
निम्न आरेख समाधान के आदेश प्रवाह और डेटा प्रवाह को प्रदर्शित करता है। आदेश प्रवाह कार्यप्रवाह में घटनाओं का तार्किक क्रम दिखाता है। डेटा प्रवाह इंगित करता है कि समाधान में विभिन्न घटकों द्वारा डेटा कैसे बनाया या उपयोग किया जा रहा है।
निम्नलिखित अनुक्रम आरेख समाधान में दो अलग-अलग प्रक्रियाओं को दिखाता है: अनुवाद कार्यप्रवाह (ए) और समानांतर डेटा (बी) को अद्यतन करने की प्रक्रिया।
अनुवाद कार्यप्रवाह एक द्वारा शुरू किया गया है अमेज़ॅन क्लाउडवॉच शेड्यूल्ड इवेंट जो ट्रांसलेशन जॉब इन्वोकर शुरू करता है AWS लाम्बा समारोह। यह फ़ंक्शन अमेज़ॅन ट्रांसलेशन में एक एसिंक्रोनस ट्रांसलेशन जॉब बनाता है, जो ट्रांसलेट करने के लिए डॉक्यूमेंट के साथ पास होता है और ट्रांसलेशन को कस्टमाइज़ करने के लिए समानांतर डेटा का स्थान होता है। अनुवाद कार्य समानांतर डेटा को पढ़ता है, अनुवाद करता है, और अनुवादित परिणाम को वापस a . पर लिखता है अमेज़न S3 बाल्टी। इस लेखन के समय, केवल अतुल्यकालिक अनुवाद कार्य समानांतर डेटा का उपयोग कर सकते हैं।
जब अनुवाद कार्य पूरा हो जाता है, तो एक घटना उत्पन्न होती है जो अनुवाद कार्य पूर्णता हैंडलर लैम्ब्डा फ़ंक्शन को ट्रिगर करती है। यह फ़ंक्शन एक मानव वर्कफ़्लो लूप बनाता है - वर्कफ़्लो के Amazon A2I भाग का मुख्य घटक।
मानव समीक्षक अनुवाद का मूल्यांकन करते हैं और अनुवाद को स्वीकार या संशोधित करते हैं। किसी भी सुधार का उपयोग अनुवादित दस्तावेज़ को अद्यतन करने के लिए किया जाता है और अनुकूलन शब्दकोश में भी जोड़ा जाता है। जब समीक्षा को अंतिम रूप दिया जाता है, तो वर्कफ़्लो पूर्णता हैंडलर फ़ंक्शन को ट्रिगर करने के लिए एक अन्य ईवेंट उत्पन्न होता है। यह फ़ंक्शन नवीनतम अनुवादित दस्तावेज़ को Amazon S3 पर वापस लिखता है। अनुकूलन डेटा का उपयोग किसी को अद्यतन करने के लिए किया जाता है अमेज़ॅन डायनेमोडीबी स्रोत और अनुवादित पाठ जोड़े के साथ तालिका।
लूप को बंद करने के लिए, हमें डायनामोडीबी में संग्रहीत इस अनुकूलन डेटा को अमेज़ॅन एस 3 में संग्रहीत समानांतर डेटा में वापस शामिल करना होगा। इसे पूरा करने के लिए, हम समानांतर डेटा रिफ्रेशर फ़ंक्शन को ट्रिगर करने के लिए एक शेड्यूल्ड क्लाउडवॉच इवेंट का उपयोग करते हैं, जो डायनेमोडीबी टेबल से डेटा को पढ़ता है, इसे समानांतर डेटा के रूप में पुन: स्वरूपित करता है, और समानांतर डेटा को संग्रहीत करते हुए S3 बकेट को अपडेट करता है।
एडब्ल्यूएस क्लाउडफॉर्मेशन के साथ समाधान तैनात करें
प्रदान किए गए लॉन्च करें एडब्ल्यूएस CloudFormation आपके खाते में समाधान परिनियोजित करने के लिए टेम्पलेट. यह स्टैक केवल us-east-1 क्षेत्र में काम करता है। यदि आप इस समाधान को अन्य क्षेत्रों में परिनियोजित करना चाहते हैं, तो निम्न का संदर्भ लें गीथहब रेपो.
- चुनें स्टैक लॉन्च करें:
- आवश्यक मापदंडों को भरने के लिए निर्देशों का पालन करें। यदि आप इस स्टैक को पहली बार चला रहे हैं, एसएनएस ईमेल एकमात्र आवश्यक पैरामीटर है।
- पर समीक्षा पेज, में क्षमताओं अनुभाग, चेक बॉक्स का चयन करें और चुनें स्टैक बनाएँ.
स्टैक निम्नलिखित प्रमुख घटक बनाता है:
- अनुकूलन डेटा - एक डायनेमोडीबी टेबल (
translate_parallel_data
) अनुकूलन डेटा बनाए रखने के लिए। आप मौजूदा अनुकूलन डेटा को इस तालिका में माइग्रेट करते हैं। इस तालिका का उपयोग लगातार अनुकूलन जोड़ने और अद्यतन करने के लिए किया जाता है। - समानांतर डेटा पुनश्चर्या - लैम्ब्डा डायनेमोडीबी तालिका में अनुकूलन डेटा को समानांतर डेटा प्रारूप-सीएसवी, टीएसवी, या टीएमएक्स में बदलने और इसे अमेज़ॅन एस 3 में संग्रहीत करने के लिए कार्य करता है। यह Amazon S3 में नई समानांतर डेटा फ़ाइल के साथ समानांतर डेटा बनाता और अपडेट करता है।
- अनुवाद नौकरी चाहने वाला - लैम्ब्डा समानांतर डेटा के साथ अमेज़ॅन ट्रांसलेट बैच कार्य शुरू करने के लिए कार्य करता है।
- अनुवाद कार्य पूर्णता हैंडलर - यह लैम्ब्डा फ़ंक्शन तब चालू हो जाता है जब अमेज़ॅन ट्रांसलेट बैच का काम पूरा हो जाता है। फ़ंक्शन प्रति दस्तावेज़ एक मानव लूप बनाता है (हम भविष्य में इसे संसाधित किए गए दस्तावेज़ों के चुनिंदा प्रतिशत के लिए मानव लूप बनाने के लिए परिष्कृत करेंगे)। यह मानव पाश बनाने के लिए मूल और अनुवादित दस्तावेजों का उपयोग करता है।
- Amazon A2I अनुकूलित टेम्पलेट - इस टेम्पलेट का उपयोग मानव समीक्षा के लिए अनुवाद जोड़ी को प्रस्तुत करने के लिए किया जाता है। टेम्पलेट में है हर अनुवाद खंड के लिए विकल्प। अनुकूलन डेटा में सुधार जोड़ने के लिए उपयोगकर्ता इस विकल्प का चयन कर सकते हैं। नए अनुकूलन डेटा का उपयोग अगले बैच अनुवाद कार्य में किया जाता है।
- कार्यप्रवाह समापन हैंडलर - मानव वर्कफ़्लो पूरा होने पर यह लैम्ब्डा फ़ंक्शन चालू हो जाता है। फ़ंक्शन अनुवादित दस्तावेज़ को सुधारों के साथ अद्यतन करता है और समानांतर डेटा अपडेट के लिए जाँच करता है। DynamoDB तालिका में नया समानांतर डेटा जोड़ा जाता है।
- Amazon A2I निजी टीम - प्रदान किए गए ईमेल का उपयोग करके एक मानव कार्यकर्ता के साथ एक Amazon A2I निजी टीम बनाई गई है। निजी टीम के सफल निर्माण पर प्रारंभिक क्रेडेंशियल ईमेल किए जाते हैं। Amazon A2I वर्कर पोर्टल में लॉग इन करने के लिए आप इस ईमेल और क्रेडेंशियल का उपयोग करते हैं।
समाधान का परीक्षण करें
RSI sample_text.txt
फ़ाइल स्टैक द्वारा बनाई गई S3 बाल्टी के इनपुट उपसर्ग के तहत बनाई गई होगी। हम अपने परीक्षण के लिए इस फ़ाइल का उपयोग करते हैं। इसमें निम्नलिखित सामग्री है:
समाधान का परीक्षण करने के लिए, निम्न चरणों को पूरा करें:
- ट्रांसलेशन जॉब इन्वोकर फ़ंक्शन को मैन्युअल रूप से आमंत्रित करें, या आपके द्वारा निर्दिष्ट क्रोन शेड्यूल के आधार पर क्लाउडवॉच द्वारा इसके ट्रिगर होने की प्रतीक्षा करें।
यह फ़ंक्शन Amazon Translate बैच कार्य को ट्रिगर करता है। आप Amazon Translate कंसोल पर कार्य की प्रगति देख सकते हैं।
इस बैच के कार्य को पूरा होने में लगभग 30 मिनट का समय लगता है। जब यह पूरा हो जाए, तोTextTranslationJob
स्टेट चेंज इवेंट ट्रांसलेशन जॉब कंप्लीशन हैंडलर फंक्शन को ट्रिगर करता है। यह फ़ंक्शन प्रति अनुवादित दस्तावेज़ में एक मानव लूप बनाता है। - पर नेविगेट करें अमेज़न A2I कार्यबल इस पृष्ठ पर ज़ूम कई वीडियो ट्यूटोरियल और अन्य साहायक साधन प्रदान करता है।
- चुनना निजी टैब.
- के लिए लिंक चुनकर Amazon A2I वर्कर पोर्टल में लॉग इन करें पोर्टल साइन-इन URL लेबल करना.
- कार्य का चयन करें
Human review task
नौकरियों की सूची में। - चुनें काम शुरू करो.
आप निम्न पृष्ठ प्रदर्शित देख सकते हैं। - डोमेन- और भाषा-विशिष्ट सुधार करने के लिए निर्देशों का पालन करें।
पिछले स्क्रीनशॉट में, वाक्यांश "किसी भी समूह स्वास्थ्य बीमा पॉलिसी में स्वास्थ्य की स्थिति का उपयोग कानून द्वारा निषिद्ध है" का अनुवाद "ला ले प्रोहिबे एल यूसो डेल एस्टाडो डे सालुड एन क्यूलक्वियर पोलीज़ा डे सेगुरो मेडिको डी ग्रुपो" में किया गया है। हालांकि अनुवाद सटीक है, वाक्यांशों को पुनर्व्यवस्थित किया गया है। - आइए इसे "एल यूसो डेल एस्टाडो डे सालुड एन क्यूलक्वियर पोलीज़ा डे सेगुरो डे सलूड ग्रुपल एस्टा प्रोहिबिडो पोर ले" में संशोधित करें ताकि इसे मूल वाक्यांशविज्ञान को प्रतिबिंबित करने वाला एक अधिक प्रत्यक्ष अनुवाद बनाया जा सके।
- चुनते हैं इसे शब्दकोश में जोड़ने के लिए।
- जब आपका काम हो जाए, तो चुनें सब्मिट.
यह कार्यप्रवाह पूर्णता हैंडलर फ़ंक्शन को ट्रिगर करता है, और अनुकूलन डेटा डायनेमोडीबी तालिका में अद्यतन किया जाता है। यह फ़ंक्शन संपादित अनुवाद को पोस्ट-एडिट प्रीफ़िक्स के अंतर्गत भी संग्रहीत करता है।
आप इसमें जोड़े जा रहे अनुकूलन देख सकते हैं translate_parallel_data
DynamoDB कंसोल पर तालिका।
कमांड फ्लो
समानांतर डेटा पुनश्चर्या फ़ंक्शन हर घंटे CloudWatch शेड्यूल किए गए ईवेंट द्वारा ट्रिगर किया जाता है। यह फ़ंक्शन नए अपडेट के लिए जाँच करता है translate_parallel_data
तालिका, के अंतर्गत Amazon S3 में एक नई समानांतर डेटा TMX फ़ाइल बनाता है parallel_data
उपसर्ग, और अमेज़ॅन अनुवाद समानांतर डेटा घटक को अपडेट करता है। यदि आप शेड्यूल किए गए ईवेंट ट्रिगर की प्रतीक्षा नहीं करना चाहते हैं तो आप इस फ़ंक्शन को मैन्युअल रूप से ट्रिगर कर सकते हैं।
आप अमेज़न ट्रांसलेट कंसोल पर अपडेट किए जा रहे समानांतर डेटा को देख सकते हैं।
जब यह पूरा हो जाए, तो कार्य की स्थिति होनी चाहिए सक्रिय और के लिए मूल्य अद्यतन रिकॉर्ड आपके द्वारा जोड़े गए अनुकूलन की संख्या को प्रतिबिंबित करना चाहिए (इस मामले में 1)।
अब हम अद्यतन डेटा के साथ अनुवाद कार्य को फिर से चला सकते हैं। दूसरे पुनरावृत्ति में अनुवाद में जोड़े जा रहे अनुकूलन का निरीक्षण करने के लिए अनुवाद जॉब इन्वोकर फ़ंक्शन को फिर से ट्रिगर करें। अमेज़ॅन अनुवाद अब अनुवाद को अनुकूलित करने के लिए प्रदान किए गए समानांतर डेटा का उपयोग करता है।
आप लेबलिंग पोर्टल में अनुवाद आउटपुट में परिवर्तन देख सकते हैं। डिफ़ॉल्ट अनुवाद के बजाय, हम देखते हैं कि अनुकूलित अनुवाद लागू किया जा रहा है।
यह वर्कफ़्लो Amazon A2I और Amazon Translate अनुकूलन सुविधाओं का उपयोग करके अनुवाद आउटपुट को लगातार बेहतर बनाने के लिए एक अच्छा चक्र बनाने में मदद करता है।
लागत
अमेज़ॅन ट्रांसलेट और अमेज़ॅन ए 2 आई के साथ, आप अपने द्वारा संसाधित किए गए टेक्स्ट वर्णों की संख्या और प्रत्येक मानव-समीक्षा ऑब्जेक्ट के आधार पर भुगतान करते हैं। हम इस उदाहरण के लिए डायनेमोडीबी ऑन-डिमांड मोड का उपयोग करते हैं। DynamoDB आपकी टेबल पर किए गए पढ़ने और लिखने के लिए आपसे शुल्क लेता है। के लिए मूल्य निर्धारण पृष्ठ देखें अमेज़न अनुवाद, अमेज़न A2I, तथा अमेज़ॅन डायनेमोडीबी वास्तविक लागतों के लिए।
क्लीन अप
जब आप इस समाधान के साथ प्रयोग करना समाप्त कर लें, तो इस उदाहरण में परिनियोजित सभी संसाधनों को हटाने के लिए AWS CloudFormation कंसोल का उपयोग करके अपने संसाधनों को साफ़ करें। इससे आपको अपने खाते में निरंतर लागतों से बचने में मदद मिलती है।
निष्कर्ष
आप इस पोस्ट में प्रस्तुत समाधान का उपयोग एक बहुभाषी अनुवाद वर्कफ़्लो बनाने के लिए कर सकते हैं जो अनुवाद परिणामों को लगातार बेहतर बनाने के लिए डोमेन-विशिष्ट अनुकूलन का उपयोग और वृद्धि करता है। हमने आपके एप्लिकेशन के लिए एक मजबूत अनुवाद सेवा बनाने के लिए अमेज़ॅन ट्रांसलेट और अमेज़ॅन ए 2 आई जैसी प्रबंधित एआई सेवाओं के साथ आपकी मौजूदा अनुकूलन संपत्तियों को एकीकृत करने के लिए एक सरल तंत्र प्रदान किया है। अमेज़ॅन ट्रांसलेट बॉक्स से बाहर 5,550 से अधिक अनुवाद जोड़े का समर्थन करने के लिए इस समाधान को स्केल करने में आपकी सहायता कर सकता है। Amazon A2I आपको अपने इन-हाउस भाषाई विशेषज्ञ के साथ आसानी से एकीकृत करने या समाधान को बढ़ाने के लिए बाहरी कार्यबल का लाभ उठाने में मदद कर सकता है।
Amazon अनुवाद के बारे में अधिक जानकारी के लिए, देखें अमेज़ॅन अनुवाद संसाधन वीडियो संसाधन और ब्लॉग पोस्ट खोजने के लिए, और देखें एडब्ल्यूएस अनुवाद अक्सर पूछे जाने वाले प्रश्न. कृपया अपने विचार हमारे साथ टिप्पणी अनुभाग में, या परियोजना के मुद्दे अनुभाग में साझा करें गिथब भंडार.
लेखक के बारे में
सत्य बालकृष्णन डेटा/एमएल समाधानों में विशेषज्ञता, एडब्ल्यूएस में पेशेवर सेवा टीम में एक वरिष्ठ ग्राहक वितरण वास्तुकार है। वह अमेरिकी संघीय वित्तीय ग्राहकों के साथ काम करता है। उन्हें ग्राहकों की व्यावसायिक समस्याओं को हल करने के लिए व्यावहारिक समाधान तैयार करने का शौक है। अपने खाली समय में, वह अपने परिवार के साथ फिल्में देखना और लंबी पैदल यात्रा करना पसंद करते हैं।
पॉल डब्ल्यू जॉयरमैन एडब्ल्यूएस में व्यावसायिक सेवाओं में एक सीनियर कस्टमर डिलीवरी आर्किटेक्ट है, जो एप्लीकेशन माइग्रेशन में विशेषज्ञता रखता है और यूएस फेडरल फाइनेंशियल क्लाइंट्स के साथ काम करता है। पॉल को प्रौद्योगिकी समाधान बनाने, परिवार के साथ यात्रा करने और शेनान्डाह नेशनल पार्क में लंबी पैदल यात्रा करने का आनंद मिलता है, जब तक कि स्थानीय शिल्प शराब की भठ्ठी में वृद्धि समाप्त हो जाती है।
- उन्नत (300)
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न अनुवाद
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट