با همان شخصیت صوتی TTS در آمازون پولی، صدا را برای محتوا به چندین زبان ایجاد کنید

بازنشر افلاطون

دنبال: 0

آمازون پولی یک سرویس مبتنی بر ابر پیشرو است که متن را به گفتار واقعی تبدیل می کند. پس از پذیرش متن به گفتار عصبی (NTTS)، ما به طور مداوم مجموعه صداهای موجود خود را به منظور ارائه گزینش وسیعی از بلندگوهای متمایز در زبان های پشتیبانی شده گسترش داده ایم. امروز، ما خوشحالیم که چهار مورد جدید اضافه شده را اعلام کنیم: پدرو به اسپانیایی آمریکایی صحبت می کند، دانیل به زبان آلمانی، لیام به زبان فرانسوی کانادایی صحبت می کند و آرتور انگلیسی انگلیسی صحبت می کند. مانند تمام صداهای عصبی موجود در مجموعه ما، این صداها تلفظ روان و بومی را در زبان مقصد خود ارائه می دهند. با این حال، چیزی که در مورد این چهار صدا منحصر به فرد است این است که همه آنها بر اساس یک شخصیت صدا هستند.

پدرو، دانیل، لیام و آرتور از صدای متیو انگلیسی موجود در ایالات متحده الگوبرداری شدند. در حالی که مشتریان همچنان از متیو به دلیل طبیعی بودن و کیفیت صدای حرفه‌ای‌اش قدردانی می‌کنند، این صدا تا کنون به طور انحصاری به ترافیک انگلیسی‌زبان سرویس می‌دهد. اکنون، با استفاده از روش‌های یادگیری عمیق، زبان و هویت گوینده را جدا کردیم، که به ما امکان داد تا تسلط بومی‌مانند را در بسیاری از زبان‌ها بدون نیاز به دریافت داده‌های چندزبانه از یک گوینده حفظ کنیم. در عمل، این بدان معناست که ما ویژگی‌های آوازی صدای متیو انگلیسی ایالات متحده را به اسپانیایی، آلمانی، فرانسوی کانادایی و انگلیسی بریتانیایی منتقل کردیم و فرصت‌های جدیدی را برای مشتریان آمازون پولی باز کرد.

داشتن صدایی با صدای مشابه در پنج منطقه محلی، پتانسیل بزرگی را برای رشد کسب و کار باز می کند. اول از همه، مشتریان با ردپای جهانی می توانند تجربه کاربری ثابتی را در زبان ها و مناطق ایجاد کنند. به عنوان مثال، یک سیستم پاسخ صوتی تعاملی (IVR) که از چندین زبان پشتیبانی می‌کند، اکنون می‌تواند به بخش‌های مختلف مشتریان بدون تغییر احساس برند خدمات ارائه دهد. همین امر در مورد سایر موارد استفاده از TTS، مانند بیان مقالات خبری، مطالب آموزشی، یا پادکست ها نیز صدق می کند.

ثانیا، صداها برای مشتریان Amazon Polly که به دنبال تلفظ بومی عبارات خارجی در هر یک از پنج زبان پشتیبانی شده هستند، مناسب است.

ثالثاً، انتشار پدرو، دانیل، لیام و آرتور به مشتریانی خدمات می‌دهد که آمازون پولی NTTS را به زبان‌های اسپانیایی، آلمانی، فرانسوی کانادایی و انگلیسی بریتانیایی دوست دارند اما به دنبال صدای مردانه با کیفیت بالا هستند—آن‌ها می‌توانند از این صداها برای ایجاد صدا استفاده کنند. برای محتوای تک زبانه و انتظار کیفیت بالایی را داشته باشید که با سایر صداهای NTTS در این زبان ها برابری کند.

در نهایت، فناوری ای که ما برای ایجاد صداهای جدید NTTS مردانه توسعه داده ایم نیز می تواند برای آن استفاده شود صداهای برند. به لطف این، مشتریان Brand Voice نه تنها می‌توانند از صدای منحصربه‌فرد NTTS که متناسب با نام تجاری آن‌ها است، لذت ببرند، بلکه می‌توانند در حین ارائه خدمات به مخاطبان بین‌المللی، تجربه‌ای ثابت داشته باشند.

مثال استفاده

بیایید یک مثال استفاده را بررسی کنیم تا نشان دهیم این در عمل به چه معناست. مشتریان آمازون پولی که با متیو آشنا هستند همچنان می توانند با انتخاب از این صدا به روش معمول استفاده کنند متی در کنسول آمازون پولی و وارد کردن هر متنی که می‌خواهند به زبان انگلیسی آمریکایی شنیده شود. در سناریوی زیر، نمونه‌های صوتی را برای یک سیستم تلفن گویا تولید می‌کنیم ("برای انگلیسی، لطفا یکی را فشار دهید"):

به لطف این نسخه، اکنون می توانید مورد استفاده را برای ارائه یک تجربه صوتی ثابت به زبان های مختلف گسترش دهید. همه صداهای جدید صدای طبیعی دارند و لهجه ای شبیه به بومی دارند.

برای تولید سخنرانی به انگلیسی بریتانیایی، آرتور را انتخاب کنید ("برای انگلیسی، لطفا یکی را فشار دهید"):
برای استفاده از یک سخنران اسپانیایی ایالات متحده، پدرو («Para español, por favor marque dos») را انتخاب کنید:
دانیل به آلمانی پشتیبانی می‌کند ("Für Deutsch drücken Sie bitte die Drei"):
می توانید با انتخاب Liam ("Pour le français, veuillez appuyer sur le quatre") متن را به زبان فرانسوی کانادایی ترکیب کنید:

توجه داشته باشید که جدای از صحبت با لهجه متفاوت، صدای آرتور انگلیسی انگلیسی متن ورودی را متفاوت از صدای متیو انگلیسی ایالات متحده بومی سازی می کند. به عنوان مثال، "1/2/22" توسط آرتور به عنوان "اول فوریه 1" خوانده می شود، در حالی که متیو آن را به عنوان "2022 ژانویه 2" می خواند.

حالا بیایید این دستورات را با هم ترکیب کنیم:

نتیجه

پدرو، دانیل، لیام و آرتور فقط به عنوان صداهای TTS عصبی در دسترس هستند، بنابراین برای لذت بردن از آنها، باید از موتور عصبی در یکی از صداها استفاده کنید. مناطق AWS از NTTS پشتیبانی می کنند. اینها با کیفیت هستند صداهای تک زبانه در زبان مقصد خود این واقعیت که شخصیت‌های آن‌ها در بین زبان‌ها یکسان هستند، یک مزیت اضافی است که امیدواریم مشتریانی را که با محتوا به زبان‌های مختلف کار می‌کنند خوشحال کند. برای جزئیات بیشتر، لیست کامل آمازون پولی ما را مرور کنید صداهای تبدیل متن به گفتار , قیمت گذاری عصبی TTS, محدودیت های خدماتو پرسش های متداول، و از ما دیدن کنید صفحه قیمت گذاری.

درباره نویسنده

پاتریک واینینا یک مهندس زبان است که روی تبدیل متن به گفتار برای انگلیسی، آلمانی و اسپانیایی کار می کند. با پیشینه ای در پردازش گفتار و زبان، علایق او در یادگیری ماشینی نهفته است که در راه حل های جلویی TTS، به ویژه در تنظیمات کم منابع اعمال می شود. در اوقات فراغت از گوش دادن به موسیقی الکترونیک و یادگیری زبان های جدید لذت می برد.

مارتا اسمولارک یک مدیر ارشد برنامه در تیم متن به گفتار آمازون است، جایی که او بر روی مورد استفاده از مرکز تماس TTS متمرکز است. او ابتکارات Go-to-Market را تعریف می کند، از بازخورد مشتری برای ساختن نقشه راه محصول استفاده می کند و راه اندازی صدای TTS را هماهنگ می کند. خارج از محل کار، او دوست دارد با خانواده اش به کمپینگ برود.

تمبر زمان: ژوئن 28، 2022

تمبر زمان: ممکن است 19، 2022

با همان شخصیت صوتی TTS در آمازون پولی، صدا برای محتوا به چندین زبان ایجاد کنید

بازنشر افلاطون

مثال استفاده

نتیجه

درباره نویسنده

بیشتر از آموزش ماشین AWS

چگونه Synamedia از Amazon Rekognition Video برای ایجاد قابلیت های جستجوی پیشرفته ویدیویی برای ویدیوهای طولانی مدت استفاده می کند

تصمیم گیری هوشمند را با Amazon SageMaker Canvas و Amazon QuickSight فعال کنید

با Amazon SageMaker Data Wrangler الگوها را در داده های متنی تشخیص دهید

با Test Workbench | چرخه عمر توسعه ربات چت آمازون Lex را تسریع کنید خدمات وب آمازون

با AWS Inferentia2 | عملکرد انتشار پایدار و کاهش هزینه های استنتاج را به حداکثر برسانید خدمات وب آمازون

توصیه‌های قدرتمند و جستجو با استفاده از نمودار دانش IMDb - قسمت 3

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب