Süddeutsche Zeitung เพิ่มประสิทธิภาพกระบวนการบรรยายด้วยเสียงด้วย Amazon Polly PlatoBlockchain Data Intelligence อย่างไร ค้นหาแนวตั้ง AI.

Süddeutsche Zeitung เพิ่มประสิทธิภาพกระบวนการบรรยายเสียงด้วย Amazon Polly . อย่างไร

นี่เป็นแขกโพสต์โดย Jakob Kohl นักพัฒนาซอฟต์แวร์ที่ Süddeutsche Zeitung Süddeutsche Zeitung เป็นหนึ่งในหนังสือพิมพ์รายวันคุณภาพชั้นนำในเยอรมนีเมื่อพูดถึงการสมัครรับข้อมูลแบบชำระเงินและผู้ใช้ที่ไม่ซ้ำ เว็บไซต์ SZ.deเข้าถึงผู้ใช้ที่ไม่ซ้ำมากกว่า 15 ล้านคนต่อเดือน ณ เดือนตุลาคม 2021

ต้องขอบคุณลำโพงอัจฉริยะและพอดแคสต์ อุตสาหกรรมเสียงจึงเติบโตอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา ที่ Zeitung Süddeutscheเรามองหาวิธีใหม่ๆ อยู่เสมอในการทำให้การสื่อสารมวลชนที่หลากหลายของเราเข้าถึงได้ง่ายขึ้น ในฐานะผู้บุกเบิกด้านวารสารศาสตร์ดิจิทัล เราต้องการเปิดโอกาสให้ Zeitung Süddeutsche ผู้อ่านที่จะบริโภคบทความ เราเริ่มมองหาวิธีแก้ปัญหาที่สามารถให้คำบรรยายเสียงคุณภาพสูงสำหรับบทความของเรา เป้าหมายสูงสุดของเราคือการเปิดตัวคุณลักษณะ "ฟังบทความ"

ในโพสต์นี้ เราแชร์วิธีที่เราเพิ่มประสิทธิภาพกระบวนการบรรยายด้วยเสียงด้วย Amazon Polly ซึ่งเป็นบริการที่จะเปลี่ยน ข้อความเป็นคำพูดเหมือนจริง โดยใช้เทคโนโลยีการเรียนรู้เชิงลึกขั้นสูง

ทำไมต้องอเมซอน พอลลี่?

เราเชื่อว่าวิคกี้ ระบบประสาทของเยอรมัน อเมซอน เสียงพอลลี่ปัจจุบันเป็นเสียงภาษาเยอรมันที่ดีที่สุดในตลาด Amazon Polly นำเสนอคุณสมบัติที่น่าประทับใจให้กับ สลับไปมาระหว่างภาษาออกเสียงได้อย่างถูกต้อง เช่น ชื่อหนังภาษาอังกฤษและชื่อบุคคลในภาษาต่างๆ (เช่น ฟังบทความ ชาลล์และวาห์น บนเว็บไซต์ของเรา)

โครงสร้างพื้นฐานส่วนใหญ่ของเราทำงานบน AWS แล้ว ดังนั้น ใช้ Amazon Polly เป็นแบบที่สมบูรณ์แบบ เราสามารถรวม Amazon Polly กับส่วนประกอบต่อไปนี้ได้:

  • An บริการแจ้งเตือนแบบง่ายของ Amazon (Amazon SNS) หัวข้อที่สมัครรับบทความได้ บทความจะถูกส่งไปยังหัวข้อนี้โดย CMS ทุกครั้งที่มีการบันทึกโดยบรรณาธิการ
  • An Amazon CloudFront แจกจ่ายด้วย แลมบ์ดาแอทเอดจ์ ไปยังบทความพรีเมียมของ paywall ซึ่งเราสามารถนำกลับมาใช้ใหม่สำหรับบทความเวอร์ชันเสียงได้

พื้นที่ อเมซอน พอลลี่ API ใช้งานง่ายและจัดทำเป็นเอกสารอย่างดี เราใช้เวลาน้อยกว่าหนึ่งสัปดาห์ในการพิสูจน์แนวคิดในการทำงาน

ความท้าทาย

มีบทความใหม่หลายร้อยบทความเผยแพร่ทุกวันบน SZ.de หลังจากการตีพิมพ์ครั้งแรก อาจมีการอัปเดตหลายครั้งด้วยเหตุผลหลายประการ—มีการเพิ่มย่อหน้าใหม่ในบทความที่เป็นข่าว, การพิมพ์ผิด, การเปลี่ยนแปลงทีเซอร์ หรือข้อมูลเมตาได้รับการปรับให้เหมาะสมสำหรับเครื่องมือค้นหา

การสร้างคำพูดสำหรับการตีพิมพ์ครั้งแรกของบทความนั้นตรงไปตรงมา เนื่องจากต้องมีการสังเคราะห์ข้อความทั้งหมด แต่เราจะสร้างเสียงสำหรับบทความเวอร์ชันอัปเดตได้อย่างรวดเร็วโดยไม่ต้องจ่ายสองครั้งสำหรับเนื้อหาเดียวกันได้อย่างไร ความท้าทายที่ใหญ่ที่สุดของเราคือป้องกันไม่ให้ส่งข้อความทั้งหมดไปยัง Amazon Polly ซ้ำแล้วซ้ำอีกในการอัปเดตแต่ละครั้ง

โซลูชันทางเทคนิคของเรา

ทุกครั้งที่บรรณาธิการบันทึกบทความ บทความเวอร์ชันใหม่จะถูกเผยแพร่ไปยังหัวข้อ SNS หนึ่ง AWS แลมบ์ดา ฟังก์ชั่นสมัครรับข้อมูลจากหัวข้อนี้และเรียกใช้บทความใหม่ทุกเวอร์ชัน ฟังก์ชันนี้รันขั้นตอนต่อไปนี้:

  1. ตรวจสอบว่าบทความเวอร์ชันใหม่ได้รับการสังเคราะห์อย่างสมบูรณ์แล้วหรือไม่ ในกรณีนี้ ฟังก์ชันจะหยุดทันที (อาจเกิดขึ้นเมื่อมีการเปลี่ยนเฉพาะข้อมูลเมตาที่ไม่ส่งผลต่อเสียง)
  2. แปลงบทความเป็นทวีคูณ เอกสาร SSMLประมาณหนึ่งย่อหน้าสำหรับแต่ละย่อหน้าของข้อความ
  3. สำหรับเอกสาร SSML แต่ละรายการ ฟังก์ชันจะตรวจสอบว่ามีการสังเคราะห์เป็นเสียงโดยใช้แฮชที่คำนวณแล้วหรือไม่ ตัวอย่างเช่น:
    1. หากบทความถูกบันทึกเป็นครั้งแรก เอกสาร SSML ทั้งหมดจะต้องถูกสังเคราะห์
    2. หากคำผิดได้รับการแก้ไขในย่อหน้าเดียว ต้องสังเคราะห์เฉพาะเอกสาร SSML สำหรับย่อหน้านี้อีกครั้ง
    3. หากมีการเพิ่มย่อหน้าใหม่ลงในบทความ ต้องสังเคราะห์เฉพาะเอกสาร SSML สำหรับย่อหน้าใหม่นี้
  4. ส่งเอกสาร SSML ที่ยังไม่ได้สังเคราะห์ทั้งหมดแยกกันไปยัง Amazon Polly

การตรวจสอบเหล่านี้ช่วยเพิ่มประสิทธิภาพและลดต้นทุนโดยป้องกันการสังเคราะห์บทความทั้งหมดหลายครั้ง เราหลีกเลี่ยงการเรียกเก็บเงินเพิ่มเติมอันเนื่องมาจากการเปลี่ยนแปลงเล็กน้อย เช่น การแก้ไขชื่อหรือการปรับเปลี่ยนข้อมูลเมตาด้วยเหตุผลด้าน SEO

ไดอะแกรมต่อไปนี้แสดงเวิร์กโฟลว์โซลูชัน

Süddeutsche Zeitung เพิ่มประสิทธิภาพกระบวนการบรรยายด้วยเสียงด้วย Amazon Polly PlatoBlockchain Data Intelligence อย่างไร ค้นหาแนวตั้ง AI.

หลังจากที่ Amazon Polly สังเคราะห์เอกสาร SSML แล้ว ไฟล์เสียงจะถูกส่งไปยังบัคเก็ตเอาต์พุตใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3). ฟังก์ชัน Lambda ตัวที่สองจะคอยฟังการสร้างวัตถุในบัคเก็ตนั้น รอให้ชิ้นส่วนเสียงทั้งหมดของบทความเสร็จสมบูรณ์ และรวมเข้าด้วยกันเป็นไฟล์เสียงขั้นสุดท้ายโดยใช้ FFmpeg จากเลเยอร์แลมบ์ดา. เสียงสุดท้ายนี้จะถูกส่งไปยังบัคเก็ต S3 อื่น ซึ่งใช้เป็นแหล่งกำเนิดในการแจกจ่าย CloudFront ของเรา ใน CloudFront เรานำเพย์วอลล์ที่มีอยู่มาใช้ซ้ำสำหรับบทความพรีเมียมสำหรับเวอร์ชันเสียงที่เกี่ยวข้อง

ตามรุ่น freemium เรามีบทความพรีเมียมเวอร์ชันเสียงที่สั้นลง ผู้ที่ไม่ใช่สมาชิกสามารถฟังย่อหน้าแรกได้ฟรี แต่จำเป็นต้องซื้อการสมัครรับข้อมูลเพื่อเข้าถึงบทความฉบับเต็ม

สรุป

การผสานรวม Amazon Polly เข้ากับโครงสร้างพื้นฐานที่มีอยู่ของเรานั้นตรงไปตรงมามาก เนื้อหาของเราต้องการการปรับแต่งเพียงเล็กน้อย เนื่องจากเรารวมเฉพาะย่อหน้าและส่วนเพิ่มเติมบางส่วน ส่วนที่ท้าทายที่สุดคือประสิทธิภาพและการเพิ่มประสิทธิภาพต้นทุน ซึ่งเราทำได้โดยแบ่งบทความออกเป็นเอกสาร SSML หลายฉบับที่สอดคล้องกับย่อหน้า ตรวจสอบการเปลี่ยนแปลงในเอกสาร SSML แต่ละฉบับ และสร้างไฟล์เสียงทั้งหมดโดยการรวมส่วนย่อย ด้วยการเพิ่มประสิทธิภาพเหล่านี้ เราสามารถบรรลุสิ่งต่อไปนี้:

  • ลดจำนวนอักขระที่สังเคราะห์ขึ้นอย่างน้อย 50% โดยการสังเคราะห์เฉพาะการเปลี่ยนแปลงจริงเท่านั้น
  • ลดเวลาที่ใช้ในการเปลี่ยนข้อความในบทความเพื่อให้ปรากฏในเสียงเนื่องจากมีการสังเคราะห์เสียงน้อยกว่า
  • เพิ่มไฟล์เสียงตามอำเภอใจระหว่างย่อหน้าโดยไม่ต้องสังเคราะห์ซ้ำทั้งบทความ ตัวอย่างเช่น เราสามารถรวมไฟล์เสียงในเวอร์ชันเสียงสั้นของบทความพรีเมียมเพื่อแยกย่อหน้าแรกออกจากบันทึกที่ตามมาซึ่งจำเป็นต้องสมัครรับข้อมูลเพื่อฟังเวอร์ชันเต็ม

ในเดือนแรกหลังจากการเปิดตัวคุณลักษณะ "ฟังบทความ" ในบทความ SZ.de ของเรา เราได้รับคำติชมเชิงบวกมากมายจากผู้ใช้ เราสามารถเข้าถึงผู้ใช้เกือบ 30,000 รายในช่วง 2 เดือนแรกหลังการเปิดตัว จากผู้ใช้เหล่านี้ ประมาณ 200 แปลงเป็นการสมัครสมาชิกแบบชำระเงินจากการฟังทีเซอร์ของบทความเบื้องหลังเพย์วอลล์ของเราเท่านั้น คุณลักษณะ "ฟังบทความ" ไม่ได้อยู่เบื้องหลังเพย์วอลล์ของเรา แต่ผู้ใช้สามารถฟังบทความพรีเมียมได้อย่างเต็มที่เท่านั้นหากมีการสมัครรับข้อมูล เว็บไซต์ของเรายังมีบทความฟรีที่ไม่มีเพย์วอลล์ ในอนาคต เราจะขยายฟีเจอร์นี้ไปยังแพลตฟอร์ม SZ อื่นๆ โดยเฉพาะแอปข่าวบนมือถือของเรา


เกี่ยวกับผู้เขียน

Süddeutsche Zeitung เพิ่มประสิทธิภาพกระบวนการบรรยายด้วยเสียงด้วย Amazon Polly PlatoBlockchain Data Intelligence อย่างไร ค้นหาแนวตั้ง AI.จาค็อบ โคห์ล เป็นนักพัฒนาซอฟต์แวร์ที่ Süddeutsche Zeitung ซึ่งเขาสนุกกับการทำงานกับเทคโนโลยีสมัยใหม่ในทีมเว็บไซต์ที่คล่องตัว เขาเป็นหนึ่งในนักพัฒนาหลักของฟีเจอร์ "ฟังบทความ SZ" ในยามว่าง เขาชอบสร้างเฟอร์นิเจอร์ไม้ ซึ่งการออกแบบทางเทคนิคและภาพมีความสำคัญพอๆ กับการพัฒนาเว็บ

ประทับเวลา:

เพิ่มเติมจาก AWS Machine Learning AWS