Süddeutsche Zeitung เพิ่มประสิทธิภาพกระบวนการบรรยายเสียงด้วย Amazon Polly อย่างไร

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

นี่เป็นแขกโพสต์โดย Jakob Kohl นักพัฒนาซอฟต์แวร์ที่ Süddeutsche Zeitung Süddeutsche Zeitung เป็นหนึ่งในหนังสือพิมพ์รายวันคุณภาพชั้นนำในเยอรมนีเมื่อพูดถึงการสมัครรับข้อมูลแบบชำระเงินและผู้ใช้ที่ไม่ซ้ำ เว็บไซต์ SZ.deเข้าถึงผู้ใช้ที่ไม่ซ้ำมากกว่า 15 ล้านคนต่อเดือน ณ เดือนตุลาคม 2021

ต้องขอบคุณลำโพงอัจฉริยะและพอดแคสต์ อุตสาหกรรมเสียงจึงเติบโตอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา ที่ Zeitung Süddeutscheเรามองหาวิธีใหม่ๆ อยู่เสมอในการทำให้การสื่อสารมวลชนที่หลากหลายของเราเข้าถึงได้ง่ายขึ้น ในฐานะผู้บุกเบิกด้านวารสารศาสตร์ดิจิทัล เราต้องการเปิดโอกาสให้ Zeitung Süddeutsche ผู้อ่านที่จะบริโภคบทความ เราเริ่มมองหาวิธีแก้ปัญหาที่สามารถให้คำบรรยายเสียงคุณภาพสูงสำหรับบทความของเรา เป้าหมายสูงสุดของเราคือการเปิดตัวคุณลักษณะ "ฟังบทความ"

ในโพสต์นี้ เราแชร์วิธีที่เราเพิ่มประสิทธิภาพกระบวนการบรรยายด้วยเสียงด้วย Amazon Polly ซึ่งเป็นบริการที่จะเปลี่ยน ข้อความเป็นคำพูดเหมือนจริง โดยใช้เทคโนโลยีการเรียนรู้เชิงลึกขั้นสูง

ทำไมต้องอเมซอน พอลลี่?

เราเชื่อว่าวิคกี้ ระบบประสาทของเยอรมัน อเมซอน เสียงพอลลี่ปัจจุบันเป็นเสียงภาษาเยอรมันที่ดีที่สุดในตลาด Amazon Polly นำเสนอคุณสมบัติที่น่าประทับใจให้กับ สลับไปมาระหว่างภาษาออกเสียงได้อย่างถูกต้อง เช่น ชื่อหนังภาษาอังกฤษและชื่อบุคคลในภาษาต่างๆ (เช่น ฟังบทความ ชาลล์และวาห์น บนเว็บไซต์ของเรา)

โครงสร้างพื้นฐานส่วนใหญ่ของเราทำงานบน AWS แล้ว ดังนั้น ใช้ Amazon Polly เป็นแบบที่สมบูรณ์แบบ เราสามารถรวม Amazon Polly กับส่วนประกอบต่อไปนี้ได้:

An บริการแจ้งเตือนแบบง่ายของ Amazon (Amazon SNS) หัวข้อที่สมัครรับบทความได้ บทความจะถูกส่งไปยังหัวข้อนี้โดย CMS ทุกครั้งที่มีการบันทึกโดยบรรณาธิการ
An Amazon CloudFront แจกจ่ายด้วย แลมบ์ดาแอทเอดจ์ ไปยังบทความพรีเมียมของ paywall ซึ่งเราสามารถนำกลับมาใช้ใหม่สำหรับบทความเวอร์ชันเสียงได้

พื้นที่ อเมซอน พอลลี่ API ใช้งานง่ายและจัดทำเป็นเอกสารอย่างดี เราใช้เวลาน้อยกว่าหนึ่งสัปดาห์ในการพิสูจน์แนวคิดในการทำงาน

ความท้าทาย

มีบทความใหม่หลายร้อยบทความเผยแพร่ทุกวันบน SZ.de หลังจากการตีพิมพ์ครั้งแรก อาจมีการอัปเดตหลายครั้งด้วยเหตุผลหลายประการ—มีการเพิ่มย่อหน้าใหม่ในบทความที่เป็นข่าว, การพิมพ์ผิด, การเปลี่ยนแปลงทีเซอร์ หรือข้อมูลเมตาได้รับการปรับให้เหมาะสมสำหรับเครื่องมือค้นหา

การสร้างคำพูดสำหรับการตีพิมพ์ครั้งแรกของบทความนั้นตรงไปตรงมา เนื่องจากต้องมีการสังเคราะห์ข้อความทั้งหมด แต่เราจะสร้างเสียงสำหรับบทความเวอร์ชันอัปเดตได้อย่างรวดเร็วโดยไม่ต้องจ่ายสองครั้งสำหรับเนื้อหาเดียวกันได้อย่างไร ความท้าทายที่ใหญ่ที่สุดของเราคือป้องกันไม่ให้ส่งข้อความทั้งหมดไปยัง Amazon Polly ซ้ำแล้วซ้ำอีกในการอัปเดตแต่ละครั้ง

โซลูชันทางเทคนิคของเรา

ทุกครั้งที่บรรณาธิการบันทึกบทความ บทความเวอร์ชันใหม่จะถูกเผยแพร่ไปยังหัวข้อ SNS หนึ่ง AWS แลมบ์ดา ฟังก์ชั่นสมัครรับข้อมูลจากหัวข้อนี้และเรียกใช้บทความใหม่ทุกเวอร์ชัน ฟังก์ชันนี้รันขั้นตอนต่อไปนี้:

ตรวจสอบว่าบทความเวอร์ชันใหม่ได้รับการสังเคราะห์อย่างสมบูรณ์แล้วหรือไม่ ในกรณีนี้ ฟังก์ชันจะหยุดทันที (อาจเกิดขึ้นเมื่อมีการเปลี่ยนเฉพาะข้อมูลเมตาที่ไม่ส่งผลต่อเสียง)
แปลงบทความเป็นทวีคูณ เอกสาร SSMLประมาณหนึ่งย่อหน้าสำหรับแต่ละย่อหน้าของข้อความ
สำหรับเอกสาร SSML แต่ละรายการ ฟังก์ชันจะตรวจสอบว่ามีการสังเคราะห์เป็นเสียงโดยใช้แฮชที่คำนวณแล้วหรือไม่ ตัวอย่างเช่น:
1. หากบทความถูกบันทึกเป็นครั้งแรก เอกสาร SSML ทั้งหมดจะต้องถูกสังเคราะห์
2. หากคำผิดได้รับการแก้ไขในย่อหน้าเดียว ต้องสังเคราะห์เฉพาะเอกสาร SSML สำหรับย่อหน้านี้อีกครั้ง
3. หากมีการเพิ่มย่อหน้าใหม่ลงในบทความ ต้องสังเคราะห์เฉพาะเอกสาร SSML สำหรับย่อหน้าใหม่นี้
ส่งเอกสาร SSML ที่ยังไม่ได้สังเคราะห์ทั้งหมดแยกกันไปยัง Amazon Polly

การตรวจสอบเหล่านี้ช่วยเพิ่มประสิทธิภาพและลดต้นทุนโดยป้องกันการสังเคราะห์บทความทั้งหมดหลายครั้ง เราหลีกเลี่ยงการเรียกเก็บเงินเพิ่มเติมอันเนื่องมาจากการเปลี่ยนแปลงเล็กน้อย เช่น การแก้ไขชื่อหรือการปรับเปลี่ยนข้อมูลเมตาด้วยเหตุผลด้าน SEO

ไดอะแกรมต่อไปนี้แสดงเวิร์กโฟลว์โซลูชัน

หลังจากที่ Amazon Polly สังเคราะห์เอกสาร SSML แล้ว ไฟล์เสียงจะถูกส่งไปยังบัคเก็ตเอาต์พุตใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3). ฟังก์ชัน Lambda ตัวที่สองจะคอยฟังการสร้างวัตถุในบัคเก็ตนั้น รอให้ชิ้นส่วนเสียงทั้งหมดของบทความเสร็จสมบูรณ์ และรวมเข้าด้วยกันเป็นไฟล์เสียงขั้นสุดท้ายโดยใช้ FFmpeg จากเลเยอร์แลมบ์ดา. เสียงสุดท้ายนี้จะถูกส่งไปยังบัคเก็ต S3 อื่น ซึ่งใช้เป็นแหล่งกำเนิดในการแจกจ่าย CloudFront ของเรา ใน CloudFront เรานำเพย์วอลล์ที่มีอยู่มาใช้ซ้ำสำหรับบทความพรีเมียมสำหรับเวอร์ชันเสียงที่เกี่ยวข้อง

ตามรุ่น freemium เรามีบทความพรีเมียมเวอร์ชันเสียงที่สั้นลง ผู้ที่ไม่ใช่สมาชิกสามารถฟังย่อหน้าแรกได้ฟรี แต่จำเป็นต้องซื้อการสมัครรับข้อมูลเพื่อเข้าถึงบทความฉบับเต็ม

สรุป

การผสานรวม Amazon Polly เข้ากับโครงสร้างพื้นฐานที่มีอยู่ของเรานั้นตรงไปตรงมามาก เนื้อหาของเราต้องการการปรับแต่งเพียงเล็กน้อย เนื่องจากเรารวมเฉพาะย่อหน้าและส่วนเพิ่มเติมบางส่วน ส่วนที่ท้าทายที่สุดคือประสิทธิภาพและการเพิ่มประสิทธิภาพต้นทุน ซึ่งเราทำได้โดยแบ่งบทความออกเป็นเอกสาร SSML หลายฉบับที่สอดคล้องกับย่อหน้า ตรวจสอบการเปลี่ยนแปลงในเอกสาร SSML แต่ละฉบับ และสร้างไฟล์เสียงทั้งหมดโดยการรวมส่วนย่อย ด้วยการเพิ่มประสิทธิภาพเหล่านี้ เราสามารถบรรลุสิ่งต่อไปนี้:

ลดจำนวนอักขระที่สังเคราะห์ขึ้นอย่างน้อย 50% โดยการสังเคราะห์เฉพาะการเปลี่ยนแปลงจริงเท่านั้น
ลดเวลาที่ใช้ในการเปลี่ยนข้อความในบทความเพื่อให้ปรากฏในเสียงเนื่องจากมีการสังเคราะห์เสียงน้อยกว่า
เพิ่มไฟล์เสียงตามอำเภอใจระหว่างย่อหน้าโดยไม่ต้องสังเคราะห์ซ้ำทั้งบทความ ตัวอย่างเช่น เราสามารถรวมไฟล์เสียงในเวอร์ชันเสียงสั้นของบทความพรีเมียมเพื่อแยกย่อหน้าแรกออกจากบันทึกที่ตามมาซึ่งจำเป็นต้องสมัครรับข้อมูลเพื่อฟังเวอร์ชันเต็ม

ในเดือนแรกหลังจากการเปิดตัวคุณลักษณะ "ฟังบทความ" ในบทความ SZ.de ของเรา เราได้รับคำติชมเชิงบวกมากมายจากผู้ใช้ เราสามารถเข้าถึงผู้ใช้เกือบ 30,000 รายในช่วง 2 เดือนแรกหลังการเปิดตัว จากผู้ใช้เหล่านี้ ประมาณ 200 แปลงเป็นการสมัครสมาชิกแบบชำระเงินจากการฟังทีเซอร์ของบทความเบื้องหลังเพย์วอลล์ของเราเท่านั้น คุณลักษณะ "ฟังบทความ" ไม่ได้อยู่เบื้องหลังเพย์วอลล์ของเรา แต่ผู้ใช้สามารถฟังบทความพรีเมียมได้อย่างเต็มที่เท่านั้นหากมีการสมัครรับข้อมูล เว็บไซต์ของเรายังมีบทความฟรีที่ไม่มีเพย์วอลล์ ในอนาคต เราจะขยายฟีเจอร์นี้ไปยังแพลตฟอร์ม SZ อื่นๆ โดยเฉพาะแอปข่าวบนมือถือของเรา

เกี่ยวกับผู้เขียน

จาค็อบ โคห์ล เป็นนักพัฒนาซอฟต์แวร์ที่ Süddeutsche Zeitung ซึ่งเขาสนุกกับการทำงานกับเทคโนโลยีสมัยใหม่ในทีมเว็บไซต์ที่คล่องตัว เขาเป็นหนึ่งในนักพัฒนาหลักของฟีเจอร์ "ฟังบทความ SZ" ในยามว่าง เขาชอบสร้างเฟอร์นิเจอร์ไม้ ซึ่งการออกแบบทางเทคนิคและภาพมีความสำคัญพอๆ กับการพัฒนาเว็บ

ประทับเวลา: กุมภาพันธ์ 11, 2022

ประทับเวลา: ตุลาคม 23, 2023

เผยแพร่ซ้ำโดยเพลโต

วิธีขยายฟังก์ชันการทำงานของ AWS Trainium ด้วยตัวดำเนินการแบบกำหนดเอง

ใช้ประโยชน์จากปัญญาประดิษฐ์และการเรียนรู้ของเครื่องที่ Parsons ด้วย AWS DeepRacer

แนะนำการปรับแต่งความนิยมสำหรับรายการที่คล้ายกันใน Amazon Personalize | บริการเว็บอเมซอน

การแบ่งส่วนเนื้องอกในสมองตามขนาดโดยใช้ AWS Inferentia

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้