الأمازون بولي هو النص إلى الكلام الخدمة التي تستخدم تقنيات التعلم العميق المتقدمة لتجميع الكلام البشري الطبيعي. يتم استخدامه في مجموعة متنوعة من حالات الاستخدام ، مثل أنظمة مراكز الاتصال ، وتقديم تجارب مستخدم محادثة بأصوات شبيهة بالبشر من أجل التحقق الآلي من الحالة في الوقت الفعلي ، والاستفسارات الآلية الخاصة بالحساب والفواتير ، ومن خلال وكالات الأنباء مثل The Washington Post للسماح للقراء بالاستماع إلى المقالات الإخبارية.
اعتبارًا من اليوم ، توفر Amazon Polly ملفات أكثر من 60 صوتًا في أكثر من 30 لغة مختلفة. يستخدم Amazon Polly أيضًا السياق لنطق كلمات معينة بشكل مختلف بناءً على زمن الفعل والمعلومات السياقية الأخرى. على سبيل المثال ، يتم نطق "اقرأ" في "أنا أقرأ كتابًا" (بصيغة المضارع) و "سأقرأ كتابًا" (بصيغة المستقبل) بشكل مختلف.
ومع ذلك ، في بعض المواقف ، قد ترغب في تخصيص طريقة نطق Amazon Polly للكلمة. على سبيل المثال ، قد تحتاج إلى مطابقة النطق باللهجة المحلية أو العامية. أسماء الأشياء (على سبيل المثال ، يمكن نطق الطماطم كـ توم آه إلى or توم- ay-to) ، غالبًا ما يتم نطق الأشخاص أو الشوارع أو الأماكن بعدة طرق مختلفة.
في هذا المنشور ، نوضح كيف يمكنك الاستفادة من المعاجم لإنشاء طرق نطق مخصصة. يمكنك تطبيق المعاجم لحالات الاستخدام مثل النشر أو التعليم أو مراكز الاتصال.
تخصيص النطق باستخدام علامة SSML
لنفترض أنك تقوم ببث بودكاست شهير من أستراليا وأنك تستخدم صوت Amazon Polly Australian English (Olivia) لتحويل البرنامج النصي الخاص بك إلى كلام يشبه الكلام البشري. في أحد البرامج النصية الخاصة بك ، تريد استخدام كلمات غير معروفة لـ Amazon Polly voice. على سبيل المثال ، تريد إرسال تحيات Mātariki (رأس السنة الماورية الجديدة) إلى المستمعين في نيوزيلندا. لمثل هذه السيناريوهات ، يدعم Amazon Polly النطق الصوتي ، والذي يمكنك استخدامه لتحقيق نطق قريب من النطق الصحيح في اللغة الأجنبية.
يمكنك استعمال ال لغة ترميز تركيب الكلام (اس اس ام ال) لاقتراح نطق صوتي في سمة ph. دعني أوضح لك كيف يمكنك استخدام علامة SSML.
أولاً ، قم بتسجيل الدخول إلى وحدة تحكم AWS وابحث عن Amazon Polly في شريط البحث في الأعلى. حدد Amazon Polly ثم اختر زر Try Polly.
في وحدة تحكم Amazon Polly ، حدد الإنجليزية الأسترالية من القائمة المنسدلة للغة وأدخل النص التالي في مربع نص الإدخال ، ثم انقر فوق "استماع" لاختبار النطق.
أتمنى لكم جميعًا سعيد ماتاريكي.
عينة من الكلام دون تطبيق النطق الصوتي:
إذا سمعت نموذج الكلام أعلاه ، يمكنك ملاحظة أن نطق ماتاريكي - كلمة ليست جزءًا من الإنجليزية الأسترالية - ليست موضعية تمامًا. الآن ، دعونا نلقي نظرة على كيفية استخدام النطق الصوتي باستخدام مثل هذه السيناريوهات علامة SSML لتخصيص الخطاب الذي يصدره Amazon Polly.
لاستخدام علامات SSML ، قم بتشغيل خيار SSML في وحدة تحكم Amazon Polly. ثم انسخ والصق نص SSML التالي الذي يحتوي على نطق صوتي لـ ماتاريكي المحدد داخل سمة الرقم الهيدروجيني لـ بطاقة شعار.
مع بطاقة شعار، يستخدم Amazon Polly النطق المحدد بواسطة السمة ph بدلاً من النطق القياسي المرتبط افتراضيًا باللغة المستخدمة بواسطة الصوت المحدد.
عينة من الكلام بعد تطبيق النطق الصوتي:
إذا سمعت عينة الصوت ، ستلاحظ أننا اخترنا نطقًا مختلفًا لبعض أحرف العلة (على سبيل المثال ، ā) لجعل Amazon Polly يجمع الأصوات الأقرب إلى النطق الصحيح. الآن قد يكون لديك سؤال ، كيف يمكنني إنشاء النسخ الصوتي "مللي أمبير: .tA: .ri.ki " للكلمة ماتاريكي?
يمكنك إنشاء نسخ صوتية بالرجوع إلى ملف جداول الصوتيات و Viseme للغات المدعومة. في المثال أعلاه استخدمنا الامتداد الصوتيات للغة الإنجليزية الأسترالية.
يقدم Amazon Polly الدعم في أبجديتين صوتيتين: IPA و X-Sampa. تتمثل فائدة X-Sampa في أنها أحرف ASCII قياسية ، لذلك من الأسهل كتابة النسخ الصوتي باستخدام لوحة مفاتيح عادية. يمكنك استخدام أيٍّ من IPA أو X-Sampa لإنشاء تدويناتك الصوتية ، ولكن تأكد من الحفاظ على اتساقها مع اختيارك ، خاصةً عند استخدام ملف المعجم الذي سنغطيه في القسم التالي.
يمثل كل صوت في جدول الصوت صوتًا للكلام. الأحرف الغامقة في "مثال" يمثل العمود في جدول Phoneme / Viseme في الصفحة الإنجليزية الأسترالية المرتبطة أعلاه الجزء من الكلمة التي يتوافق معها "Phoneme". على سبيل المثال ، يمثل الصوت / j / الصوت الذي يصدره متحدث اللغة الإنجليزية الأسترالية عند نطق الحرف "y" في "نعم".
تخصيص النطق باستخدام المعاجم
علامات الصوت مناسبة للمواقف الفردية لتخصيص الحالات المعزولة ، ولكنها ليست قابلة للتطوير. إذا كنت تعالج حجمًا ضخمًا من النص ، يديره محررين ومراجعين مختلفين ، فإننا نوصي باستخدام المعاجم. باستخدام المعاجم ، يمكنك تحقيق التناسق في إضافة طرق نطق مخصصة وتقليل الجهد اليدوي لإدخال علامات الصوت في البرنامج النصي في نفس الوقت.
من الممارسات الجيدة أنه بعد اختبار النطق المخصص على وحدة تحكم Amazon Polly باستخدام علامة ، يمكنك إنشاء مكتبة من طرق النطق المخصصة باستخدام المعاجم. بمجرد تحميل ملف lexicons ، سيطبق Amazon Polly تلقائيًا النطق الصوتي المحدد في ملف المعاجم ويلغي الحاجة إلى توفير بطاقة شعار.
قم بإنشاء ملف معجم
يحتوي ملف المعجم على التعيين بين الكلمات ونطقها الصوتي. مواصفات معجم النطق (PLS) هي توصية W3C لتحديد معلومات النطق القابلة للتشغيل البيني. فيما يلي مثال على مستند PLS:
تأكد من استخدام القيمة الصحيحة لـ xml:lang
حقل. يستخدم en-AU
إذا كنت تقوم بتحميل ملف المعجم لاستخدامه مع صوت Amazon Polly باللغة الإنجليزية الأسترالية. للحصول على قائمة كاملة باللغات المدعومة ، راجع اللغات التي يدعمها Amazon Polly.
لتحديد نطق مخصص ، تحتاج إلى إضافة ملف عنصر عبارة عن حاوية لإدخال معجمي مع واحد أو أكثر <grapheme>
عنصر واحد أو أكثر من معلومات النطق المتوفرة بالداخل <phoneme>
جزء.
• <grapheme>
يحتوي العنصر على النص الذي يصف علم الإملاء ل عنصر. يمكنك استخدام ملف <grapheme>
عنصر لتحديد الكلمة التي تريد تخصيص نطقها. يمكنك إضافة عدة ملفات <grapheme>
عناصر لتحديد جميع أشكال الكلمات ، على سبيل المثال مع أو بدون رموز. ال <grapheme>
عنصر حساس لحالة الأحرف ، وأثناء تركيب الكلام ، تطابق سلسلة Amazon Polly الكلمات الموجودة داخل النص الذي تقوم بتحويله إلى كلام. إذا تم العثور على تطابق ، فإنه يستخدم ، الذي يصف كيفية عمل ملف وضوحا لتوليد النسخ الصوتي.
يمكنك أيضا استخدام <alias>
للاختصارات شائعة الاستخدام. في المثال السابق لملف المعجم ، NZ يستخدم كاسم مستعار لـ نيوزيلاندا. هذا يعني أنه عندما تأتي Amazon Polly عبر "NZ" (مع حالة مطابقة) في نص النص ، ستقرأ هذين الحرفين على أنهما "New Zealand".
لمزيد من المعلومات حول تنسيق ملف المعجم ، راجع مواصفات معجم النطق (PLS) الإصدار 1.0 على موقع W3C.
يمكنك حفظ ملف معجم كملف .pls أو .xml قبل تحميله إلى Amazon Polly.
قم بتحميل وتطبيق ملف المعجم
قم بتحميل ملف المعجم الخاص بك إلى Amazon Polly باستخدام الإرشادات التالية:
- في وحدة تحكم Amazon Polly ، اختر المعاجم في جزء التنقل.
- اختار تحميل المعجم.
- أدخل اسمًا للمعجم ثم اختر ملف معجم.
- اختر الملف المراد تحميله.
- اختار تحميل المعجم.
إذا كان هناك معجم يحمل نفس الاسم (سواء كان ملف .pls أو .xml) موجودًا بالفعل ، فسيؤدي تحميل المعجم إلى الكتابة فوق المعجم الحالي.
الآن يمكنك تطبيق المعجم لتخصيص النطق.
- اختار النص إلى كلام في جزء التنقل.
- وسع إعدادات إضافية.
- شغل تخصيص النطق.
- اختر المعجم في القائمة المنسدلة.
يمكنك أيضا اختيار تحميل المعجم لتحميل ملف معجم جديد (أو نسخة جديدة).
إنها ممارسة جيدة للتحكم في الإصدار في ملف المعجم في مستودع كود المصدر. يضمن الاحتفاظ بالكلمات المنطوقة المخصصة في ملف معجم أنه يمكنك الرجوع باستمرار إلى النطق الصوتي لكلمات معينة عبر المؤسسة. أيضًا ، ضع في اعتبارك حدود معجم النطق المذكورة في الحصص في أمازون بولي .
اختبر النطق بعد تطبيق المعجم
دعونا نجري اختبارًا سريعًا باستخدام نص الإدخال "أتمنى لجميع المستمعين في نيوزيلندا ، سعيد للغاية ماتاريكي".
يمكننا مقارنة الملفات الصوتية قبل وبعد تطبيق المعجم.
قبل تطبيق المعجم:
بعد تطبيق المعجم:
وفي الختام
في هذا المنشور ، ناقشنا كيف يمكنك تخصيص نطق الاختصارات الشائعة الاستخدام أو الكلمات غير الموجودة في اللغة المحددة في Amazon Polly. يمكنك استخدام علامة SSML رائعة لإدخال التخصيصات لمرة واحدة أو لأغراض الاختبار. نوصي باستخدام المعجم لإنشاء مجموعة متسقة من النطق للكلمات المستخدمة بشكل متكرر عبر مؤسستك. يتيح ذلك لكتاب المحتوى قضاء بعض الوقت في الكتابة بدلاً من المهمة الشاقة المتمثلة في إضافة النطق الصوتي في البرنامج النصي بشكل متكرر. يمكنك تجربة ذلك في حساب AWS الخاص بك على وحدة تحكم Amazon Polly.
ملخص الموارد
حول المؤلف
راتان كومار هو مهندس حلول مقره أوكلاند ، نيوزيلندا. إنه يعمل مع عملاء من المؤسسات الكبيرة لمساعدتهم على تصميم وبناء تطبيقات إنترنت آمنة وفعالة من حيث التكلفة وموثوقة باستخدام سحابة AWS. إنه متحمس للتكنولوجيا ويحب مشاركة المعرفة من خلال منشورات المدونات وجلسات النشل.
ماسيك تيجي هو مصمم صوت رئيسي ومدير منتج في Polly Brand Voices. لقد عمل بصفة مهنية في صناعة التكنولوجيا والأفلام والإعلانات التجارية وتوطين الألعاب. في عام 2013 ، كان أول مهندس صوت يتم تعيينه لفريق Alexa Text-To- Speech. شارك Maciek في إطلاق 12 صوتًا من أصوات Alexa TTS عبر بلدان مختلفة ، وأكثر من 20 صوتًا بولي ، و 4 أصوات من مشاهير Alexa. Maciek هو لاعب ثلاثي ، وعازف جيتار أكوستيك.
- "
- 100
- 116
- من نحن
- حسابي
- التأهيل
- في
- متقدم
- اليكسا
- الكل
- سابقا
- أمازون
- التطبيقات
- تطبيق
- سمعي
- أستراليا
- السيارات
- الآلي
- AWS
- قبل
- تستفيد
- الفواتير
- المدونة
- المقالات والأخبار
- الجسدي
- الحدود
- صندوق
- العلامة تجارية
- نساعدك في بناء
- دعوة
- الطاقة الإنتاجية
- الحالات
- شهرة
- معين
- اختار
- أقرب
- سحابة
- الكود
- عمود
- كنسولات
- التواصل
- وعاء
- يحتوي
- محتوى
- مراقبة
- فعاله من حيث التكلفه
- دولة
- بهيكل
- خلق
- خلق
- على
- العملاء
- تقديم
- شرح
- تصميم
- المطور
- مختلف
- أثناء
- التعليم
- جهد
- عناصر
- القضاء
- مهندس
- عربي
- أدخل
- مشروع
- خاصة
- مثال
- القائمة
- خبرة
- الاسم الأول
- متابعيك
- أجنبي
- شكل
- وجدت
- مستقبل
- لعبة
- توليد
- خير
- عظيم
- سعيد
- مساعدة
- كيفية
- HTTPS
- ضخم
- الانسان
- العالمية
- معلومات
- إدخال
- Internet
- قابلة للتشغيل المتبادل
- المشاركة
- IT
- حفظ
- المعرفة
- لغة
- اللغات
- كبير
- تعلم
- الرافعة المالية
- المكتبة
- قائمة
- محلي
- يصنع
- تمكن
- مدير
- كتيب
- يدويا
- رسم الخرائط
- مباراة
- مطابقة
- يعني
- المذكورة
- ربما
- مانع
- الأكثر من ذلك
- أفلام
- متعدد
- أسماء
- قائمة الإختيارات
- السنة الجديدة
- نيوزيلاندا
- أخبار
- عادي
- عروض
- خيار
- منظمة
- أخرى
- جزء
- عاطفي
- مجتمع
- لاعب
- بودكاست
- أكثر الاستفسارات
- المنشورات
- ممارسة
- يقدم
- رئيسي
- عملية المعالجة
- أنتج
- منتج
- محترف
- تزود
- ويوفر
- نشر
- أغراض
- سؤال
- سريع
- القراء
- في الوقت الحقيقي
- نوصي
- تخفيض
- الخدمة الموثوقة
- مستودع
- مثل
- يمثل
- تحجيم
- حجم
- بحث
- تأمين
- مختار
- الخدمة
- دورات
- طقم
- مشاركة
- So
- الصلبة
- الحلول
- بعض
- شفرة المصدر
- مكبرات الصوت
- مواصفة
- أنفق
- معيار
- الحالة
- إقامة
- مجرى
- الدعم
- مدعومة
- الدعم
- أنظمة
- فريق
- التكنولوجيا
- صناعة التكنولوجيا
- التكنولوجيا
- تكنولوجيا
- تجربه بالعربي
- الاختبار
- The Washington Post
- عبر
- الوقت
- اليوم
- تيشرت
- تويتش
- تستخدم
- قيمنا
- تشكيلة
- الإصدار
- صوت
- * أصوات
- حجم
- W3
- واشنطن
- الموقع الإلكتروني
- سواء
- ويكيبيديا
- بدون
- كلمات
- عمل
- أعمال
- جاري الكتابة
- XML
- عام