Amazon पोली प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में एक ही टीटीएस वॉयस व्यक्तित्व के साथ कई भाषाओं में सामग्री के लिए ऑडियो बनाएं। लंबवत खोज। ऐ.

Amazon Poly में एक ही TTS वॉयस व्यक्तित्व के साथ कई भाषाओं में सामग्री के लिए ऑडियो बनाएं

अमेज़ॅन पोली एक प्रमुख क्लाउड-आधारित सेवा है जो टेक्स्ट को सजीव भाषण में परिवर्तित करती है। न्यूरल टेक्स्ट-टू-स्पीच (एनटीटीएस) को अपनाने के बाद, हमने समर्थित भाषाओं में अलग-अलग वक्ताओं का विस्तृत चयन प्रदान करने के लिए उपलब्ध आवाजों के अपने पोर्टफोलियो का लगातार विस्तार किया है। आज, हमें चार नए अतिरिक्त की घोषणा करते हुए प्रसन्नता हो रही है: पेड्रो अमेरिकी स्पेनिश बोल रहा है, डैनियल जर्मन बोल रहा है, लियाम कनाडाई फ्रेंच बोल रहा है, और आर्थर ब्रिटिश अंग्रेजी बोल रहा है। हमारे पोर्टफोलियो में सभी तंत्रिका आवाजों की तरह, ये आवाजें अपनी लक्षित भाषाओं में धाराप्रवाह, देशी उच्चारण प्रदान करती हैं। हालांकि, इन चारों आवाजों के बारे में अद्वितीय बात यह है कि ये सभी एक ही आवाज व्यक्तित्व पर आधारित हैं।

पेड्रो, डैनियल, लियाम और आर्थर को मौजूदा अमेरिकी अंग्रेजी मैथ्यू आवाज पर तैयार किया गया था। जबकि ग्राहक मैथ्यू की स्वाभाविकता और पेशेवर-ध्वनि गुणवत्ता के लिए सराहना करना जारी रखते हैं, आवाज ने अब तक विशेष रूप से अंग्रेजी बोलने वाले यातायात की सेवा की है। अब, डीप-लर्निंग विधियों का उपयोग करते हुए, हमने भाषा और स्पीकर की पहचान को अलग कर दिया, जिससे हमें एक ही स्पीकर से बहुभाषी डेटा प्राप्त किए बिना कई भाषाओं में देशी-समान प्रवाह को संरक्षित करने की अनुमति मिली। व्यवहार में, इसका मतलब है कि हमने यूएस इंग्लिश मैथ्यू आवाज की मुखर विशेषताओं को यूएस स्पेनिश, जर्मन, कनाडाई फ्रेंच और ब्रिटिश अंग्रेजी में स्थानांतरित कर दिया, जिससे अमेज़ॅन पोली ग्राहकों के लिए नए अवसर खुल गए।

पांच स्थानों में समान ध्वनि वाली आवाज उपलब्ध होने से व्यवसाय के विकास की काफी संभावनाएं खुलती हैं। सबसे पहले, वैश्विक पदचिह्न वाले ग्राहक भाषाओं और क्षेत्रों में एक सुसंगत उपयोगकर्ता अनुभव बना सकते हैं। उदाहरण के लिए, एक इंटरेक्टिव वॉयस रिस्पांस (आईवीआर) सिस्टम जो कई भाषाओं का समर्थन करता है, अब ब्रांड की भावना को बदले बिना विभिन्न ग्राहक खंडों की सेवा कर सकता है। वही अन्य सभी टीटीएस उपयोग के मामलों के लिए जाता है, जैसे कि समाचार लेख, शिक्षा सामग्री, या पॉडकास्ट को आवाज देना।

दूसरे, अमेज़ॅन पोली ग्राहकों के लिए आवाजें एक अच्छी फिट हैं जो पांच समर्थित भाषाओं में से किसी में विदेशी वाक्यांशों के मूल उच्चारण की तलाश में हैं।

तीसरा, पेड्रो, डैनियल, लियाम और आर्थर को रिलीज़ करना हमारे ग्राहकों की सेवा करता है जो यूएस स्पैनिश, जर्मन, कैनेडियन फ्रेंच और ब्रिटिश अंग्रेजी में अमेज़ॅन पोली एनटीटीएस पसंद करते हैं लेकिन एक उच्च गुणवत्ता वाली मर्दाना आवाज की तलाश में हैं-वे ऑडियो बनाने के लिए इन आवाजों का उपयोग कर सकते हैं एकभाषी सामग्री के लिए और उच्च गुणवत्ता की अपेक्षा करें जो इन भाषाओं में अन्य एनटीटीएस आवाजों के बराबर हो।

अंत में, नई पुरुष एनटीटीएस आवाज बनाने के लिए हमने जो तकनीक विकसित की है, उसका भी उपयोग किया जा सकता है ब्रांड आवाज. इसके लिए धन्यवाद, ब्रांड वॉयस ग्राहक न केवल एक अद्वितीय एनटीटीएस आवाज का आनंद ले सकते हैं जो उनके ब्रांड के अनुरूप है, बल्कि अंतरराष्ट्रीय दर्शकों की सेवा करते हुए लगातार अनुभव भी रखते हैं।

उदाहरण उपयोग केस

आइए व्यवहार में इसका क्या अर्थ है, यह प्रदर्शित करने के लिए एक उदाहरण उपयोग मामले का पता लगाएं। मैथ्यू से परिचित अमेज़ॅन पोली ग्राहक अभी भी इस आवाज का उपयोग सामान्य तरीके से चुनकर कर सकते हैं मैथ्यू अमेज़ॅन पोली कंसोल पर और किसी भी पाठ को दर्ज करना जिसे वे यूएस अंग्रेजी में बोलना चाहते हैं। निम्नलिखित परिदृश्य में, हम एक आईवीआर सिस्टम के लिए ऑडियो नमूने उत्पन्न करते हैं ("अंग्रेजी के लिए, कृपया एक दबाएं"):

इस रिलीज़ के लिए धन्यवाद, अब आप विभिन्न भाषाओं में एक सुसंगत ऑडियो अनुभव देने के लिए उपयोग के मामले का विस्तार कर सकते हैं। सभी नई आवाजें प्राकृतिक-ध्वनि वाली हैं और एक देशी जैसा उच्चारण बनाए रखती हैं।

  • ब्रिटिश अंग्रेजी में भाषण उत्पन्न करने के लिए, आर्थर चुनें ("अंग्रेजी के लिए, कृपया एक दबाएं"):
  • यूएस स्पैनिश स्पीकर का उपयोग करने के लिए, पेड्रो ("पैरा स्पेनोल, पोर फेवर मार्के डॉस") चुनें:
  • डैनियल जर्मन में समर्थन प्रदान करता है ("Für Deutsch drücken Sie bitte die Drei"):
  • आप लियाम ("Pour le français, Veuillez appuyer sur le quatre") को चुनकर कैनेडियन फ्रेंच में टेक्स्ट को संश्लेषित कर सकते हैं:

ध्यान दें कि एक अलग उच्चारण के साथ बोलने के अलावा, यूके अंग्रेजी आर्थर आवाज अमेरिकी अंग्रेजी मैथ्यू आवाज की तुलना में अलग-अलग इनपुट टेक्स्ट को स्थानीयकृत करेगी। उदाहरण के लिए, आर्थर द्वारा "1/2/22" को "1 फरवरी 2022" के रूप में पढ़ा जाएगा, जबकि मैथ्यू इसे "2 जनवरी 2022" के रूप में पढ़ेगा।

अब इन संकेतों को मिलाते हैं:

निष्कर्ष

पेड्रो, डैनियल, लियाम और आर्थर केवल तंत्रिका टीटीएस आवाज के रूप में उपलब्ध हैं, इसलिए उनका आनंद लेने के लिए, आपको इनमें से किसी एक में तंत्रिका इंजन का उपयोग करने की आवश्यकता है। एनटीएस का समर्थन करने वाले AWS क्षेत्र. ये उच्च गुणवत्ता वाले हैं एकभाषी आवाज उनकी लक्षित भाषाओं में। यह तथ्य कि उनका व्यक्तित्व सभी भाषाओं में एक जैसा है, एक अतिरिक्त लाभ है, जिसकी हमें उम्मीद है कि कई भाषाओं में सामग्री के साथ काम करने वाले ग्राहकों को प्रसन्नता होगी। अधिक जानकारी के लिए, अमेज़ॅन पोली की हमारी पूरी सूची देखें टेक्स्ट-टू-स्पीच आवाजें , तंत्रिका टीटीएस मूल्य निर्धारण, सेवा सीमा, तथा अक्सर पूछे गए प्रश्न, और हमारे पर जाएँ मूल्य निर्धारण पृष्ठ.


लेखक के बारे में

Amazon पोली प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में एक ही टीटीएस वॉयस व्यक्तित्व के साथ कई भाषाओं में सामग्री के लिए ऑडियो बनाएं। लंबवत खोज। ऐ.पैट्रिक वेनैना एक भाषा इंजीनियर है जो अंग्रेजी, जर्मन और स्पेनिश के लिए टेक्स्ट-टू-स्पीच पर काम कर रहा है। भाषण और भाषा प्रसंस्करण की पृष्ठभूमि के साथ, उनकी रुचि मशीन लर्निंग में है, जैसा कि टीटीएस फ्रंट-एंड समाधानों पर लागू होता है, विशेष रूप से कम-संसाधन सेटिंग्स में। अपने खाली समय में, उन्हें इलेक्ट्रॉनिक संगीत सुनना और नई भाषाएँ सीखने में मज़ा आता है।

Amazon पोली प्लेटोब्लॉकचैन डेटा इंटेलिजेंस में एक ही टीटीएस वॉयस व्यक्तित्व के साथ कई भाषाओं में सामग्री के लिए ऑडियो बनाएं। लंबवत खोज। ऐ.मार्टा स्मोलरेके अमेज़ॅन टेक्स्ट-टू-स्पीच टीम में एक वरिष्ठ कार्यक्रम प्रबंधक है, जहां वह संपर्क केंद्र टीटीएस उपयोग के मामले पर केंद्रित है। वह गो-टू-मार्केट पहल को परिभाषित करती है, उत्पाद रोडमैप बनाने के लिए ग्राहकों की प्रतिक्रिया का उपयोग करती है और टीटीएस वॉयस लॉन्च का समन्वय करती है। काम के अलावा, वह अपने परिवार के साथ कैंपिंग में जाना पसंद करती है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सेजमेकर स्टूडियो और अमेज़ॅन सेजमेकर ऑटोपायलट का उपयोग करके उपग्रह छवि सुविधाओं का उपयोग करके मैंग्रोव वनों की पहचान करें - भाग 1

स्रोत नोड: 1497650
समय टिकट: जून 21, 2022