สร้างเสียงสำหรับเนื้อหาในหลายภาษาด้วย TTS Voice Persona ใน Amazon Polly

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Amazon Polly เป็นบริการบนคลาวด์ชั้นนำที่แปลงข้อความเป็นคำพูดที่สมจริง หลังจากการนำ Neural Text-to-Speech (NTTS) มาใช้ เราได้ขยายพอร์ตโฟลิโอของเสียงที่มีอยู่อย่างต่อเนื่องเพื่อจัดหาผู้พูดที่แตกต่างกันในภาษาที่รองรับ วันนี้ เรายินดีที่จะประกาศการเพิ่มใหม่สี่รายการ: เปโดรที่พูดภาษาสเปนแบบสหรัฐอเมริกา แดเนียลที่พูดภาษาเยอรมัน เลียมที่พูดภาษาฝรั่งเศสแบบแคนาดา และอาเธอร์ที่พูดภาษาอังกฤษแบบอังกฤษ เช่นเดียวกับเสียง Neural ทั้งหมดในพอร์ตโฟลิโอของเรา เสียงเหล่านี้ให้การออกเสียงที่คล่องแคล่วและเป็นภาษาท้องถิ่นในภาษาเป้าหมาย อย่างไรก็ตาม เอกลักษณ์ของเสียงทั้งสี่นี้คือเสียงทั้งหมดมีพื้นฐานมาจากเสียงที่เหมือนกัน

เปโดร, แดเนียล, เลียม และอาร์เธอร์ถูกจำลองมาจากเสียงของแมทธิวภาษาอังกฤษแบบสหรัฐอเมริกาที่มีอยู่ ในขณะที่ลูกค้ายังคงชื่นชม Matthew ในเรื่องความเป็นธรรมชาติและคุณภาพเสียงที่เป็นมืออาชีพของเขา เสียงนั้นยังคงให้บริการเฉพาะการจราจรที่พูดภาษาอังกฤษเท่านั้น ด้วยการใช้วิธีการเรียนรู้เชิงลึก เราแยกภาษาและเอกลักษณ์ของผู้พูดออก ซึ่งช่วยให้เรารักษาความคล่องแคล่วเหมือนเจ้าของภาษาในหลายภาษาโดยไม่ต้องรับข้อมูลหลายภาษาจากผู้พูดคนเดียวกัน ในทางปฏิบัติ นี่หมายความว่าเราถ่ายโอนลักษณะเสียงร้องของเสียงภาษาอังกฤษแบบสหรัฐอเมริกาของแมทธิวไปเป็นภาษาสเปน เยอรมัน ฝรั่งเศสแคนาดา และอังกฤษแบบอังกฤษ ซึ่งเป็นการเปิดโอกาสใหม่ให้กับลูกค้าของ Amazon Polly

การมีเสียงที่คล้ายคลึงกันในห้าสถานที่จะปลดล็อกศักยภาพที่ยอดเยี่ยมสำหรับการเติบโตทางธุรกิจ ประการแรก ลูกค้าที่มีรอยเท้าทั่วโลกสามารถสร้างประสบการณ์ผู้ใช้ที่สอดคล้องกันในภาษาและภูมิภาค ตัวอย่างเช่น ระบบโต้ตอบด้วยเสียงแบบโต้ตอบ (IVR) ที่รองรับหลายภาษาสามารถให้บริการลูกค้ากลุ่มต่างๆ ได้โดยไม่ต้องเปลี่ยนความรู้สึกของแบรนด์ เช่นเดียวกับกรณีการใช้งาน TTS อื่นๆ ทั้งหมด เช่น การออกเสียงบทความข่าว สื่อการศึกษา หรือพอดแคสต์

ประการที่สอง เสียงดังกล่าวเหมาะสมอย่างยิ่งกับลูกค้าของ Amazon Polly ที่กำลังมองหาการออกเสียงวลีต่างประเทศโดยกำเนิดในห้าภาษาที่รองรับ

ประการที่สาม การเปิดตัวของ Pedro, Daniel, Liam และ Arthur ให้บริการกับลูกค้าของเราที่ชอบ Amazon Polly NTTS ในภาษาสเปนแบบสหรัฐอเมริกา เยอรมัน ฝรั่งเศสแบบแคนาดา และอังกฤษแบบอังกฤษ แต่กำลังมองหาเสียงผู้ชายคุณภาพสูง—พวกเขาสามารถใช้เสียงเหล่านี้เพื่อสร้างเสียงได้ สำหรับเนื้อหาภาษาเดียวและคาดหวังคุณภาพสูงสุดที่เทียบเท่ากับเสียง NTTS อื่นๆ ในภาษาเหล่านี้

สุดท้ายนี้ เทคโนโลยีที่เราได้พัฒนาขึ้นเพื่อสร้างเสียง NTTS แบบใหม่สำหรับผู้ชายก็สามารถใช้ได้เช่นกัน เสียงแบรนด์. ด้วยเหตุนี้ ลูกค้าของ Brand Voice จึงสามารถเพลิดเพลินไปกับเสียง NTTS ที่ไม่เหมือนใครซึ่งได้รับการปรับแต่งให้เหมาะกับแบรนด์ของตนเท่านั้น แต่ยังรักษาประสบการณ์ที่สม่ำเสมอในขณะที่ให้บริการแก่ผู้ชมต่างประเทศ

ตัวอย่างการใช้งาน

มาสำรวจตัวอย่างกรณีการใช้งานเพื่อแสดงให้เห็นว่าสิ่งนี้หมายความว่าอย่างไรในทางปฏิบัติ ลูกค้า Amazon Polly ที่คุ้นเคยกับ Matthew ยังคงใช้เสียงนี้ได้ตามปกติโดยเลือก แมทธิว บนคอนโซลของ Amazon Polly และป้อนข้อความที่ต้องการฟังที่พูดเป็นภาษาอังกฤษแบบสหรัฐอเมริกา ในสถานการณ์ต่อไปนี้ เราสร้างตัวอย่างเสียงสำหรับระบบ IVR (“สำหรับภาษาอังกฤษ โปรดกด XNUMX รายการ”):

ด้วยรุ่นนี้ คุณจึงสามารถขยายกรณีการใช้งานเพื่อมอบประสบการณ์เสียงที่สอดคล้องกันในภาษาต่างๆ ได้ เสียงใหม่ทั้งหมดให้เสียงที่เป็นธรรมชาติและยังคงสำเนียงเหมือนเจ้าของภาษา

หากต้องการสร้างคำพูดเป็นภาษาอังกฤษแบบอังกฤษ ให้เลือก Arthur (“สำหรับภาษาอังกฤษ โปรดกดหนึ่งรายการ”):
ในการใช้ผู้พูดภาษาสเปนแบบสหรัฐอเมริกา ให้เลือก Pedro (“Para español, por favor marque dos”):
Daniel ให้การสนับสนุนเป็นภาษาเยอรมัน (“Für Deutsch drücken Sie bitte die Drei”):
คุณสามารถสังเคราะห์ข้อความในภาษาฝรั่งเศสแบบแคนาดาได้โดยเลือก Liam (“Pour le français, veuillez appuyer sur le quatre”):

โปรดทราบว่านอกเหนือจากการพูดด้วยสำเนียงที่ต่างกัน เสียงอังกฤษของอังกฤษ Arthur จะแปลข้อความที่ป้อนเข้าให้แตกต่างจากเสียงของแมทธิวภาษาอังกฤษแบบสหรัฐอเมริกา ตัวอย่างเช่น อาเธอร์จะอ่าน "1/2/22" เป็น "วันที่ 1 กุมภาพันธ์ พ.ศ. 2022" ในขณะที่แมทธิวจะอ่านว่า "2 มกราคม พ.ศ. 2022"

ตอนนี้ มารวมคำแนะนำเหล่านี้:

สรุป

Pedro, Daniel, Liam และ Arthur มีให้ใช้งานเป็นเสียง Neural TTS เท่านั้น ดังนั้นเพื่อจะเพลิดเพลินไปกับเสียงเหล่านี้ คุณต้องใช้ Neural engine ในเสียงใดเสียงหนึ่ง ภูมิภาค AWS รองรับ NTTS. เหล่านี้มีคุณภาพสูง เสียงพูดเดียว ในภาษาเป้าหมายของพวกเขา ความจริงที่ว่าบุคลิกของพวกเขาสอดคล้องกันในภาษาต่างๆ ถือเป็นประโยชน์เพิ่มเติม ซึ่งเราหวังว่าจะทำให้ลูกค้าพึงพอใจในการทำงานกับเนื้อหาในหลายภาษา สำหรับรายละเอียดเพิ่มเติม ตรวจสอบรายชื่อทั้งหมดของ Amazon Polly ข้อความเป็นคำพูดเสียง , ราคา TTS ประสาท, ขีดจำกัดบริการและ คำถามที่พบบ่อยและเยี่ยมชมของเรา หน้าการกำหนดราคา.

เกี่ยวกับผู้เขียน

แพทริก ไวนัยนา เป็นวิศวกรภาษาที่ทำงานเกี่ยวกับการอ่านออกเสียงข้อความสำหรับภาษาอังกฤษ เยอรมัน และสเปน ด้วยพื้นฐานด้านการประมวลผลคำพูดและภาษา ความสนใจของเขาอยู่ที่การเรียนรู้ของเครื่องซึ่งนำไปใช้กับโซลูชันฟรอนต์เอนด์ของ TTS โดยเฉพาะอย่างยิ่งในการตั้งค่าทรัพยากรต่ำ ในเวลาว่าง เขาชอบฟังเพลงอิเล็กทรอนิกส์และเรียนรู้ภาษาใหม่

มาร์ตา สโมลาเร็ก เป็นผู้จัดการโปรแกรมอาวุโสในทีม Text-to-Speech ของ Amazon โดยมุ่งเน้นที่กรณีการใช้งาน Contact Center TTS เธอกำหนดความคิดริเริ่มสู่ตลาด ใช้คำติชมของลูกค้าเพื่อสร้างแผนงานผลิตภัณฑ์ และประสานงานการเปิดตัว TTS ด้วยเสียง นอกงาน เธอชอบไปตั้งแคมป์กับครอบครัว

ประทับเวลา: มิถุนายน 28, 2022

วิธีที่ Amazon Shopping ใช้การกลั่นกรองเนื้อหาของ Amazon Rekognition เพื่อตรวจสอบรูปภาพที่เป็นอันตรายในการรีวิวผลิตภัณฑ์ | บริการเว็บอเมซอน

คลัสเตอร์ต้นทาง:

AWS Machine Learning AWS

โหนดต้นทาง: 1875891

ประทับเวลา: สิงหาคม 15, 2023

สร้างเสียงสำหรับเนื้อหาในหลายภาษาด้วยบุคลิกเสียง TTS เดียวกันใน Amazon Polly

เผยแพร่ซ้ำโดยเพลโต

ตัวอย่างการใช้งาน

สรุป

เกี่ยวกับผู้เขียน

เพิ่มเติมจาก AWS Machine Learning AWS

Amp บน Amazon ใช้ข้อมูลเพื่อเพิ่มการมีส่วนร่วมของลูกค้าอย่างไร ส่วนที่ 1: การสร้างแพลตฟอร์มการวิเคราะห์ข้อมูล

สร้างคำบรรยายและเสียงที่ซิงโครไนซ์โดยใช้ตัวสร้างคำบรรยายของ Amazon Polly

ระบุป่าชายเลนโดยใช้คุณสมบัติภาพถ่ายดาวเทียมโดยใช้ Amazon SageMaker Studio และ Amazon SageMaker Autopilot – ตอนที่ 1

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้