قم بإنشاء صوت للمحتوى بلغات متعددة باستخدام نفس شخصية TTS الصوتية في Amazon Polly

أعاد نشره أفلاطون

المتابعون: 0

الأمازون بولي هي خدمة سحابية رائدة تقوم بتحويل النص إلى كلام نابض بالحياة. بعد اعتماد Neural Text-to-Speech (NTTS) ، قمنا باستمرار بتوسيع مجموعة الأصوات المتاحة لدينا من أجل توفير مجموعة واسعة من المتحدثين المتميزين باللغات المدعومة. اليوم ، يسرنا أن نعلن عن أربع إضافات جديدة: بيدرو يتحدث الإسبانية الأمريكية ، دانيال يتحدث الألمانية ، ليام يتحدث الكندية الفرنسية ، وآرثر يتحدث الإنجليزية البريطانية. كما هو الحال مع جميع الأصوات العصبية في محفظتنا ، تقدم هذه الأصوات النطق الأصلي بطلاقة في اللغات المستهدفة. ومع ذلك ، فإن ما يميز هذه الأصوات الأربعة هو أنها تستند جميعها إلى نفس الشخصية الصوتية.

تم تصميم بيدرو ودانيال وليام وآرثر على غرار صوت ماثيو الإنجليزي الأمريكي الحالي. بينما يواصل العملاء تقدير ماثيو لطبيعته وجودة صوته الاحترافية ، خدم الصوت بشكل حصري حتى الآن حركة المرور الناطقة باللغة الإنجليزية. الآن ، باستخدام أساليب التعلم العميق ، قمنا بفصل هوية اللغة والمتحدث ، مما سمح لنا بالحفاظ على طلاقة اللغة الأم عبر العديد من اللغات دون الحاجة إلى الحصول على بيانات متعددة اللغات من نفس المتحدث. من الناحية العملية ، هذا يعني أننا نقلنا الخصائص الصوتية لصوت ماثيو الإنجليزي الأمريكي إلى اللغة الإسبانية الأمريكية ، والألمانية ، والفرنسية الكندية ، والإنجليزية البريطانية ، مما فتح فرصًا جديدة لعملاء Amazon Polly.

إن الحصول على صوت مشابه متوفر في خمس مناطق محلية يفتح إمكانات كبيرة لنمو الأعمال. بادئ ذي بدء ، يمكن للعملاء ذوي البصمة العالمية إنشاء تجربة مستخدم متسقة عبر اللغات والمناطق. على سبيل المثال ، يمكن لنظام الاستجابة الصوتية التفاعلية (IVR) الذي يدعم لغات متعددة الآن أن يخدم شرائح مختلفة من العملاء دون تغيير طابع العلامة التجارية. الشيء نفسه ينطبق على جميع حالات استخدام تحويل النص إلى كلام أخرى ، مثل نشر المقالات الإخبارية أو المواد التعليمية أو البودكاست.

ثانيًا ، الأصوات مناسبة لعملاء Amazon Polly الذين يبحثون عن نطق أصلي للعبارات الأجنبية في أي من اللغات الخمس المدعومة.

ثالثًا ، إطلاق سراح Pedro و Daniel و Liam و Arthur يخدم عملائنا الذين يحبون Amazon Polly NTTS باللغات الإسبانية الأمريكية والألمانية والكندية والفرنسية والإنجليزية البريطانية ولكنهم يبحثون عن صوت ذكوري عالي الجودة - يمكنهم استخدام هذه الأصوات لإنشاء صوت للمحتوى أحادي اللغة وتوقع جودة عالية تتساوى مع أصوات NTTS الأخرى بهذه اللغات.

أخيرًا ، يمكن أيضًا استخدام التكنولوجيا التي طورناها لإنشاء أصوات NTTS الذكور الجديدة أصوات العلامة التجارية. بفضل هذا ، لا يمكن لعملاء Brand Voice الاستمتاع بصوت NTTS الفريد المصمم خصيصًا لعلامتهم التجارية فحسب ، بل يمكنهم أيضًا الاحتفاظ بتجربة متسقة أثناء خدمة جمهور دولي.

مثال على حالة الاستخدام

دعنا نستكشف مثال حالة استخدام لتوضيح ما يعنيه هذا في الممارسة. لا يزال بإمكان عملاء Amazon Polly المألوفين مع Matthew استخدام هذا الصوت بالطريقة المعتادة عن طريق الاختيار ماثيو على وحدة تحكم Amazon Polly وإدخال أي نص يريدون سماعه منطوقًا باللغة الإنجليزية الأمريكية. في السيناريو التالي ، نقوم بتوليد عينات صوتية لنظام IVR ("للغة الإنجليزية ، يرجى الضغط على واحد"):

بفضل هذا الإصدار ، يمكنك الآن توسيع حالة الاستخدام لتقديم تجربة صوتية متسقة بلغات مختلفة. جميع الأصوات الجديدة تبدو طبيعية وتحافظ على لهجة أصلية.

لتوليد خطاب بالإنجليزية البريطانية ، اختر آرثر ("للغة الإنجليزية ، يرجى الضغط على واحد"):
لاستخدام متحدث باللغة الإسبانية بالولايات المتحدة ، اختر Pedro ("Para español، por favour marque dos"):
يقدم Daniel الدعم باللغة الألمانية ("Für Deutsch drücken Sie bitte die Drei"):
يمكنك تجميع نص بالفرنسية الكندية باختيار Liam (“Pour le français، veuillez appuyer sur le quatre”):

لاحظ أنه بصرف النظر عن التحدث بلهجة مختلفة ، فإن صوت آرثر الإنجليزي في المملكة المتحدة سيعمل على ترجمة نص الإدخال بشكل مختلف عن صوت ماثيو الإنجليزية في الولايات المتحدة. على سبيل المثال ، سيقرأ آرثر "1/2/22" على أنه "الأول من فبراير 1" ، في حين يقرأه ماثيو على أنه "الثاني من يناير 2022".

الآن دعنا نجمع هذه المطالبات:

وفي الختام

يتوفر Pedro و Daniel و Liam و Arthur كأصوات Neural TTS فقط ، لذا من أجل الاستمتاع بها ، تحتاج إلى استخدام المحرك العصبي في أحد مناطق AWS التي تدعم NTTS. هذه هي ذات جودة عالية أصوات أحادية اللغة بلغاتهم المستهدفة. تعتبر حقيقة أن شخصياتهم متسقة عبر اللغات ميزة إضافية ، ونأمل أن تسعد العملاء الذين يتعاملون مع المحتوى بلغات متعددة. لمزيد من التفاصيل ، راجع قائمتنا الكاملة من Amazon Polly أصوات تحويل النص إلى كلام , تسعير TTS العصبية, حدود الخدمةو الأسئلة الشائعة، وقم بزيارة صفحة التسعير.

حول المؤلف

باتريك وينينا مهندس لغة يعمل على تحويل النص إلى كلام للغة الإنجليزية والألمانية والإسبانية. مع خلفية في معالجة الكلام واللغة ، تكمن اهتماماته في التعلم الآلي كما هو مطبق على حلول الواجهة الأمامية لـ TTS ، لا سيما في الأماكن منخفضة الموارد. يستمتع في أوقات فراغه بالاستماع إلى الموسيقى الإلكترونية وتعلم لغات جديدة.

مارتا سمولارك هي مديرة برامج أولى في فريق Amazon Text-to-Speech ، حيث تركز على حالة استخدام TTS لمركز الاتصال. تحدد مبادرات Go-to-Market ، وتستخدم ملاحظات العملاء لبناء خارطة طريق المنتج وتنسيق عمليات إطلاق TTS الصوتية. خارج العمل ، تحب الذهاب للتخييم مع عائلتها.

الطابع الزمني: 28 حزيران، 2022

الطابع الزمني: 19 مايو 2022

أنشئ صوتًا للمحتوى بلغات متعددة بنفس شخصية TTS الصوتية في Amazon Polly

أعاد نشره أفلاطون

مثال على حالة الاستخدام

وفي الختام

حول المؤلف

اكثر من التعلم الآلي من AWS

كيف تستخدم Syignedia فيديو Amazon Rekognition لبناء إمكانات بحث فيديو متقدمة للفيديو الطويل

قم بتمكين اتخاذ القرار الذكي باستخدام Amazon SageMaker Canvas و Amazon QuickSight

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler

تسريع دورة حياة تطوير روبوت الدردشة Amazon Lex باستخدام Test Workbench | خدمات أمازون ويب

حقق أقصى قدر من أداء الانتشار المستقر وخفض تكاليف الاستدلال باستخدام AWS Inferentia2 | خدمات أمازون ويب

توصيات الطاقة والبحث باستخدام الرسم البياني للمعرفة IMDb - الجزء 3

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي