นี่เป็นแขกโพสต์โดย Jakob Kohl นักพัฒนาซอฟต์แวร์ที่ Süddeutsche Zeitung Süddeutsche Zeitung เป็นหนึ่งในหนังสือพิมพ์รายวันคุณภาพชั้นนำในเยอรมนีเมื่อพูดถึงการสมัครรับข้อมูลแบบชำระเงินและผู้ใช้ที่ไม่ซ้ำ เว็บไซต์ SZ.deเข้าถึงผู้ใช้ที่ไม่ซ้ำมากกว่า 15 ล้านคนต่อเดือน ณ เดือนตุลาคม 2021
ต้องขอบคุณลำโพงอัจฉริยะและพอดแคสต์ อุตสาหกรรมเสียงจึงเติบโตอย่างรวดเร็วในช่วงไม่กี่ปีที่ผ่านมา ที่ Zeitung Süddeutscheเรามองหาวิธีใหม่ๆ อยู่เสมอในการทำให้การสื่อสารมวลชนที่หลากหลายของเราเข้าถึงได้ง่ายขึ้น ในฐานะผู้บุกเบิกด้านวารสารศาสตร์ดิจิทัล เราต้องการเปิดโอกาสให้ Zeitung Süddeutsche ผู้อ่านที่จะบริโภคบทความ เราเริ่มมองหาวิธีแก้ปัญหาที่สามารถให้คำบรรยายเสียงคุณภาพสูงสำหรับบทความของเรา เป้าหมายสูงสุดของเราคือการเปิดตัวคุณลักษณะ "ฟังบทความ"
ในโพสต์นี้ เราแชร์วิธีที่เราเพิ่มประสิทธิภาพกระบวนการบรรยายด้วยเสียงด้วย Amazon Polly ซึ่งเป็นบริการที่จะเปลี่ยน ข้อความเป็นคำพูดเหมือนจริง โดยใช้เทคโนโลยีการเรียนรู้เชิงลึกขั้นสูง
ทำไมต้องอเมซอน พอลลี่?
เราเชื่อว่าวิคกี้ ระบบประสาทของเยอรมัน อเมซอน เสียงพอลลี่ปัจจุบันเป็นเสียงภาษาเยอรมันที่ดีที่สุดในตลาด Amazon Polly นำเสนอคุณสมบัติที่น่าประทับใจให้กับ สลับไปมาระหว่างภาษาออกเสียงได้อย่างถูกต้อง เช่น ชื่อหนังภาษาอังกฤษและชื่อบุคคลในภาษาต่างๆ (เช่น ฟังบทความ ชาลล์และวาห์น บนเว็บไซต์ของเรา)
โครงสร้างพื้นฐานส่วนใหญ่ของเราทำงานบน AWS แล้ว ดังนั้น ใช้ Amazon Polly เป็นแบบที่สมบูรณ์แบบ เราสามารถรวม Amazon Polly กับส่วนประกอบต่อไปนี้ได้:
- An บริการแจ้งเตือนแบบง่ายของ Amazon (Amazon SNS) หัวข้อที่สมัครรับบทความได้ บทความจะถูกส่งไปยังหัวข้อนี้โดย CMS ทุกครั้งที่มีการบันทึกโดยบรรณาธิการ
- An Amazon CloudFront แจกจ่ายด้วย แลมบ์ดาแอทเอดจ์ ไปยังบทความพรีเมียมของ paywall ซึ่งเราสามารถนำกลับมาใช้ใหม่สำหรับบทความเวอร์ชันเสียงได้
พื้นที่ อเมซอน พอลลี่ API ใช้งานง่ายและจัดทำเป็นเอกสารอย่างดี เราใช้เวลาน้อยกว่าหนึ่งสัปดาห์ในการพิสูจน์แนวคิดในการทำงาน
ความท้าทาย
มีบทความใหม่หลายร้อยบทความเผยแพร่ทุกวันบน SZ.de หลังจากการตีพิมพ์ครั้งแรก อาจมีการอัปเดตหลายครั้งด้วยเหตุผลหลายประการ—มีการเพิ่มย่อหน้าใหม่ในบทความที่เป็นข่าว, การพิมพ์ผิด, การเปลี่ยนแปลงทีเซอร์ หรือข้อมูลเมตาได้รับการปรับให้เหมาะสมสำหรับเครื่องมือค้นหา
การสร้างคำพูดสำหรับการตีพิมพ์ครั้งแรกของบทความนั้นตรงไปตรงมา เนื่องจากต้องมีการสังเคราะห์ข้อความทั้งหมด แต่เราจะสร้างเสียงสำหรับบทความเวอร์ชันอัปเดตได้อย่างรวดเร็วโดยไม่ต้องจ่ายสองครั้งสำหรับเนื้อหาเดียวกันได้อย่างไร ความท้าทายที่ใหญ่ที่สุดของเราคือป้องกันไม่ให้ส่งข้อความทั้งหมดไปยัง Amazon Polly ซ้ำแล้วซ้ำอีกในการอัปเดตแต่ละครั้ง
โซลูชันทางเทคนิคของเรา
ทุกครั้งที่บรรณาธิการบันทึกบทความ บทความเวอร์ชันใหม่จะถูกเผยแพร่ไปยังหัวข้อ SNS หนึ่ง AWS แลมบ์ดา ฟังก์ชั่นสมัครรับข้อมูลจากหัวข้อนี้และเรียกใช้บทความใหม่ทุกเวอร์ชัน ฟังก์ชันนี้รันขั้นตอนต่อไปนี้:
- ตรวจสอบว่าบทความเวอร์ชันใหม่ได้รับการสังเคราะห์อย่างสมบูรณ์แล้วหรือไม่ ในกรณีนี้ ฟังก์ชันจะหยุดทันที (อาจเกิดขึ้นเมื่อมีการเปลี่ยนเฉพาะข้อมูลเมตาที่ไม่ส่งผลต่อเสียง)
- แปลงบทความเป็นทวีคูณ เอกสาร SSMLประมาณหนึ่งย่อหน้าสำหรับแต่ละย่อหน้าของข้อความ
- สำหรับเอกสาร SSML แต่ละรายการ ฟังก์ชันจะตรวจสอบว่ามีการสังเคราะห์เป็นเสียงโดยใช้แฮชที่คำนวณแล้วหรือไม่ ตัวอย่างเช่น:
- หากบทความถูกบันทึกเป็นครั้งแรก เอกสาร SSML ทั้งหมดจะต้องถูกสังเคราะห์
- หากคำผิดได้รับการแก้ไขในย่อหน้าเดียว ต้องสังเคราะห์เฉพาะเอกสาร SSML สำหรับย่อหน้านี้อีกครั้ง
- หากมีการเพิ่มย่อหน้าใหม่ลงในบทความ ต้องสังเคราะห์เฉพาะเอกสาร SSML สำหรับย่อหน้าใหม่นี้
- ส่งเอกสาร SSML ที่ยังไม่ได้สังเคราะห์ทั้งหมดแยกกันไปยัง Amazon Polly
การตรวจสอบเหล่านี้ช่วยเพิ่มประสิทธิภาพและลดต้นทุนโดยป้องกันการสังเคราะห์บทความทั้งหมดหลายครั้ง เราหลีกเลี่ยงการเรียกเก็บเงินเพิ่มเติมอันเนื่องมาจากการเปลี่ยนแปลงเล็กน้อย เช่น การแก้ไขชื่อหรือการปรับเปลี่ยนข้อมูลเมตาด้วยเหตุผลด้าน SEO
ไดอะแกรมต่อไปนี้แสดงเวิร์กโฟลว์โซลูชัน
หลังจากที่ Amazon Polly สังเคราะห์เอกสาร SSML แล้ว ไฟล์เสียงจะถูกส่งไปยังบัคเก็ตเอาต์พุตใน บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน เอส3). ฟังก์ชัน Lambda ตัวที่สองจะคอยฟังการสร้างวัตถุในบัคเก็ตนั้น รอให้ชิ้นส่วนเสียงทั้งหมดของบทความเสร็จสมบูรณ์ และรวมเข้าด้วยกันเป็นไฟล์เสียงขั้นสุดท้ายโดยใช้ FFmpeg จากเลเยอร์แลมบ์ดา. เสียงสุดท้ายนี้จะถูกส่งไปยังบัคเก็ต S3 อื่น ซึ่งใช้เป็นแหล่งกำเนิดในการแจกจ่าย CloudFront ของเรา ใน CloudFront เรานำเพย์วอลล์ที่มีอยู่มาใช้ซ้ำสำหรับบทความพรีเมียมสำหรับเวอร์ชันเสียงที่เกี่ยวข้อง
ตามรุ่น freemium เรามีบทความพรีเมียมเวอร์ชันเสียงที่สั้นลง ผู้ที่ไม่ใช่สมาชิกสามารถฟังย่อหน้าแรกได้ฟรี แต่จำเป็นต้องซื้อการสมัครรับข้อมูลเพื่อเข้าถึงบทความฉบับเต็ม
สรุป
การผสานรวม Amazon Polly เข้ากับโครงสร้างพื้นฐานที่มีอยู่ของเรานั้นตรงไปตรงมามาก เนื้อหาของเราต้องการการปรับแต่งเพียงเล็กน้อย เนื่องจากเรารวมเฉพาะย่อหน้าและส่วนเพิ่มเติมบางส่วน ส่วนที่ท้าทายที่สุดคือประสิทธิภาพและการเพิ่มประสิทธิภาพต้นทุน ซึ่งเราทำได้โดยแบ่งบทความออกเป็นเอกสาร SSML หลายฉบับที่สอดคล้องกับย่อหน้า ตรวจสอบการเปลี่ยนแปลงในเอกสาร SSML แต่ละฉบับ และสร้างไฟล์เสียงทั้งหมดโดยการรวมส่วนย่อย ด้วยการเพิ่มประสิทธิภาพเหล่านี้ เราสามารถบรรลุสิ่งต่อไปนี้:
- ลดจำนวนอักขระที่สังเคราะห์ขึ้นอย่างน้อย 50% โดยการสังเคราะห์เฉพาะการเปลี่ยนแปลงจริงเท่านั้น
- ลดเวลาที่ใช้ในการเปลี่ยนข้อความในบทความเพื่อให้ปรากฏในเสียงเนื่องจากมีการสังเคราะห์เสียงน้อยกว่า
- เพิ่มไฟล์เสียงตามอำเภอใจระหว่างย่อหน้าโดยไม่ต้องสังเคราะห์ซ้ำทั้งบทความ ตัวอย่างเช่น เราสามารถรวมไฟล์เสียงในเวอร์ชันเสียงสั้นของบทความพรีเมียมเพื่อแยกย่อหน้าแรกออกจากบันทึกที่ตามมาซึ่งจำเป็นต้องสมัครรับข้อมูลเพื่อฟังเวอร์ชันเต็ม
ในเดือนแรกหลังจากการเปิดตัวคุณลักษณะ "ฟังบทความ" ในบทความ SZ.de ของเรา เราได้รับคำติชมเชิงบวกมากมายจากผู้ใช้ เราสามารถเข้าถึงผู้ใช้เกือบ 30,000 รายในช่วง 2 เดือนแรกหลังการเปิดตัว จากผู้ใช้เหล่านี้ ประมาณ 200 แปลงเป็นการสมัครสมาชิกแบบชำระเงินจากการฟังทีเซอร์ของบทความเบื้องหลังเพย์วอลล์ของเราเท่านั้น คุณลักษณะ "ฟังบทความ" ไม่ได้อยู่เบื้องหลังเพย์วอลล์ของเรา แต่ผู้ใช้สามารถฟังบทความพรีเมียมได้อย่างเต็มที่เท่านั้นหากมีการสมัครรับข้อมูล เว็บไซต์ของเรายังมีบทความฟรีที่ไม่มีเพย์วอลล์ ในอนาคต เราจะขยายฟีเจอร์นี้ไปยังแพลตฟอร์ม SZ อื่นๆ โดยเฉพาะแอปข่าวบนมือถือของเรา
เกี่ยวกับผู้เขียน
จาค็อบ โคห์ล เป็นนักพัฒนาซอฟต์แวร์ที่ Süddeutsche Zeitung ซึ่งเขาสนุกกับการทำงานกับเทคโนโลยีสมัยใหม่ในทีมเว็บไซต์ที่คล่องตัว เขาเป็นหนึ่งในนักพัฒนาหลักของฟีเจอร์ "ฟังบทความ SZ" ในยามว่าง เขาชอบสร้างเฟอร์นิเจอร์ไม้ ซึ่งการออกแบบทางเทคนิคและภาพมีความสำคัญพอๆ กับการพัฒนาเว็บ
- "
- 000
- 100
- 2021
- เข้า
- ประสบความสำเร็จ
- เพิ่มเติม
- สูง
- เปรียว
- ทั้งหมด
- แล้ว
- อเมซอน
- จำนวน
- อื่น
- ปพลิเคชัน
- บทความ
- บทความ
- เสียง
- AWS
- ที่ดีที่สุด
- ที่ใหญ่ที่สุด
- ความเจริญ
- การก่อสร้าง
- ท้าทาย
- เปลี่ยนแปลง
- โหลด
- การตรวจสอบ
- การตรวจสอบ
- แนวคิด
- บริโภค
- เนื้อหา
- ได้
- วัน
- ออกแบบ
- ผู้พัฒนา
- นักพัฒนา
- พัฒนาการ
- ต่าง
- ดิจิตอล
- การกระจาย
- เอกสาร
- ไม่
- บรรณาธิการ
- ภาษาอังกฤษ
- โดยเฉพาะอย่างยิ่ง
- ตัวอย่าง
- แสดง
- มีประสบการณ์
- ลักษณะ
- ข้อเสนอแนะ
- ชื่อจริง
- ครั้งแรก
- พอดี
- ดังต่อไปนี้
- ฟรี
- เต็ม
- ฟังก์ชัน
- อนาคต
- สร้าง
- ประเทศเยอรมัน
- เป้าหมาย
- แขก
- โพสต์ของผู้เข้าพัก
- ช่วย
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTTPS
- สำคัญ
- ประกอบด้วย
- อุตสาหกรรม
- โครงสร้างพื้นฐาน
- IT
- วารสารศาสตร์
- ภาษา
- เปิดตัว
- ชั้นนำ
- การเรียนรู้
- การฟัง
- ที่ต้องการหา
- ตลาด
- ล้าน
- โทรศัพท์มือถือ
- แบบ
- เดือน
- มากที่สุด
- หนัง
- ชื่อ
- ข่าว
- การประกาศ
- เสนอ
- เปิด
- โอกาส
- อื่นๆ
- ต้องจ่าย
- การปฏิบัติ
- ส่วนบุคคล
- แพลตฟอร์ม
- พอดคาสต์
- Premium
- การป้องกัน
- กระบวนการ
- พิสูจน์
- พิสูจน์แนวคิด
- ให้
- ซื้อ
- คุณภาพ
- อย่างรวดเร็ว
- เหตุผล
- ลด
- จำเป็นต้องใช้
- ค้นหา
- เครื่องมือค้นหา
- บริการ
- Share
- ง่าย
- สมาร์ท
- So
- ซอฟต์แวร์
- โซลูชัน
- ลำโพง
- ข้อความที่เริ่ม
- การเก็บรักษา
- สมัครเป็นสมาชิก
- การสมัครสมาชิก
- ทีม
- วิชาการ
- เทคโนโลยี
- เวลา
- เป็นเอกลักษณ์
- บันทึก
- us
- ใช้
- ผู้ใช้
- เสียงพูด
- เว็บ
- Website
- สัปดาห์
- ไม่มี
- งาน
- การทำงาน
- ปี