Cách Süddeutsche Zeitung tối ưu hóa quy trình tường thuật âm thanh của họ với Amazon Polly PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Cách Süddeutsche Zeitung tối ưu hóa quy trình tường thuật bằng âm thanh của họ với Amazon Polly

Đây là bài đăng của Jakob Kohl, Nhà phát triển phần mềm tại Süddeutsche Zeitung. Süddeutsche Zeitung là một trong những tờ nhật báo chất lượng hàng đầu ở Đức khi nói đến đăng ký trả phí và người dùng duy nhất. Trang web của nó, SZ.de, tiếp cận hơn 15 triệu người dùng duy nhất hàng tháng kể từ tháng 2021 năm XNUMX.

Nhờ có loa thông minh và podcast, ngành công nghiệp âm thanh đã có một sự bùng nổ thực sự trong những năm gần đây. Tại Süddeutsche Zeitung, chúng tôi không ngừng tìm kiếm những cách thức mới để làm cho nền báo chí đa dạng của chúng tôi trở nên dễ tiếp cận hơn. Là những người tiên phong trong lĩnh vực báo chí kỹ thuật số, chúng tôi muốn mở ra nhiều cơ hội hơn cho Süddeutsche Zeitung độc giả để tiêu thụ các bài báo. Chúng tôi bắt đầu tìm kiếm các giải pháp có thể cung cấp tường thuật âm thanh chất lượng cao cho các bài viết của mình. Mục tiêu cuối cùng của chúng tôi là ra mắt tính năng “nghe bài viết”.

Trong bài đăng này, chúng tôi chia sẻ cách chúng tôi tối ưu hóa quy trình tường thuật bằng âm thanh của mình với Amazon Polly, một dịch vụ biến văn bản thành bài phát biểu sống động như thật sử dụng công nghệ học sâu tiên tiến.

Tại sao Amazon Polly?

Chúng tôi tin rằng Vicki, thần kinh người Đức Giọng nói Amazon Polly, hiện là giọng Đức tốt nhất trên thị trường. Amazon Polly cung cấp tính năng ấn tượng để chuyển đổi giữa các ngôn ngữ, phát âm chính xác, ví dụ như tên phim tiếng Anh cũng như tên cá nhân trong các ngôn ngữ khác nhau (ví dụ: nghe bài báo Schall und Wahn trên trang web của chúng tôi).

Một phần lớn cơ sở hạ tầng của chúng tôi đã chạy trên AWS, vì vậy sử dụng Amazon Polly là một sự phù hợp hoàn hảo. Chúng tôi có thể kết hợp Amazon Polly với các thành phần sau:

  • An Dịch vụ thông báo đơn giản của Amazon (Amazon SNS) chủ đề mà chúng tôi có thể đăng ký nhận các bài báo. Các bài báo được CMS gửi đến chủ đề này bất cứ khi nào chúng được một biên tập viên lưu.
  • An Amazon CloudFront phân phối với Lambda @ Edge cho các bài báo cao cấp về tường phí, chúng tôi có thể sử dụng lại cho các phiên bản âm thanh của bài báo.

Sản phẩm API Amazon Polly rất dễ sử dụng và được ghi chép đầy đủ. Chúng tôi mất chưa đầy một tuần để bằng chứng về khái niệm của chúng tôi hoạt động.

Các thách thức

Hàng trăm bài báo mới được xuất bản mỗi ngày trên SZ.de. Sau khi xuất bản lần đầu, chúng có thể được cập nhật nhiều lần vì nhiều lý do — các đoạn văn mới được thêm vào các bài báo hướng tin tức, lỗi chính tả được sửa, đoạn giới thiệu được thay đổi hoặc siêu dữ liệu được tối ưu hóa cho các công cụ tìm kiếm.

Việc tạo ra bài phát biểu cho lần xuất bản đầu tiên của một bài báo là đơn giản, bởi vì toàn bộ văn bản cần được tổng hợp. Nhưng làm thế nào chúng tôi có thể nhanh chóng tạo âm thanh cho các phiên bản cập nhật của bài báo mà không phải trả hai lần cho cùng một nội dung? Thách thức lớn nhất của chúng tôi là ngăn không cho gửi toàn bộ văn bản đến Amazon Polly liên tục cho mỗi lần cập nhật.

Giải pháp kỹ thuật của chúng tôi

Mỗi khi người biên tập lưu một bài báo, phiên bản mới của bài báo sẽ được xuất bản cho một chủ đề SNS. Một AWS Lambda chức năng được đăng ký cho chủ đề này và được gọi cho mọi phiên bản mới của một bài báo. Hàm này chạy theo các bước sau:

  1. Kiểm tra xem phiên bản mới của bài viết đã được tổng hợp hoàn chỉnh chưa. Nếu vậy, chức năng sẽ dừng ngay lập tức (điều này có thể xảy ra khi chỉ thay đổi siêu dữ liệu mà không ảnh hưởng đến âm thanh).
  2. Chuyển bài báo thành nhiều Tài liệu SSML, khoảng một cho mỗi đoạn văn bản.
  3. Đối với mỗi tài liệu SSML, hàm sẽ kiểm tra xem nó đã được tổng hợp thành âm thanh hay chưa bằng cách sử dụng các hàm băm được tính toán. Ví dụ:
    1. Nếu một bài báo được lưu lần đầu tiên, tất cả các tài liệu SSML phải được tổng hợp.
    2. Nếu lỗi chính tả đã được sửa trong một đoạn văn, thì chỉ tài liệu SSML cho đoạn văn này phải được tổng hợp lại.
    3. Nếu một đoạn văn mới được thêm vào bài viết, thì chỉ tài liệu SSML cho đoạn văn mới này phải được tổng hợp.
  4. Gửi riêng tất cả các tài liệu SSML chưa được tổng hợp tới Amazon Polly.

Những kiểm tra này giúp tối ưu hóa hiệu suất và giảm chi phí bằng cách ngăn chặn việc tổng hợp nhiều lần toàn bộ một bài báo. Chúng tôi tránh phát sinh thêm phí do những thay đổi nhỏ như chỉnh sửa tiêu đề hoặc điều chỉnh siêu dữ liệu vì lý do SEO.

Sơ đồ sau minh họa quy trình giải pháp.

Cách Süddeutsche Zeitung tối ưu hóa quy trình tường thuật âm thanh của họ với Amazon Polly PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sau khi Amazon Polly tổng hợp các tài liệu SSML, các tệp âm thanh được gửi đến một nhóm đầu ra trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Một hàm Lambda thứ hai đang lắng nghe quá trình tạo đối tượng trên thùng đó, đợi hoàn thành tất cả các đoạn âm thanh của một bài báo và kết hợp chúng thành một tệp âm thanh cuối cùng bằng cách sử dụng FFmpeg từ một lớp Lambda. Âm thanh cuối cùng này được gửi đến một nhóm S3 khác, được sử dụng làm nguồn gốc trong bản phân phối CloudFront của chúng tôi. Trong CloudFront, chúng tôi sử dụng lại tường phí hiện có cho các bài viết cao cấp cho phiên bản âm thanh tương ứng.

Dựa trên mô hình freemium của chúng tôi, chúng tôi cung cấp phiên bản âm thanh rút gọn của các bài báo cao cấp. Những người không đăng ký có thể nghe miễn phí đoạn đầu tiên, nhưng bắt buộc phải mua đăng ký mới có thể truy cập toàn bộ bài báo.

Kết luận

Việc tích hợp Amazon Polly vào cơ sở hạ tầng hiện có của chúng tôi rất đơn giản. Nội dung của chúng tôi yêu cầu tùy chỉnh tối thiểu vì chúng tôi chỉ bao gồm các đoạn văn và một số dấu ngắt bổ sung. Phần thách thức nhất là tối ưu hóa hiệu suất và chi phí, chúng tôi đã đạt được bằng cách chia bài viết thành nhiều tài liệu SSML tương ứng với các đoạn văn, kiểm tra các thay đổi trong mỗi tài liệu SSML và xây dựng toàn bộ tệp âm thanh bằng cách hợp nhất các đoạn. Với những tối ưu hóa này, chúng tôi có thể đạt được những điều sau:

  • Giảm số lượng ký tự tổng hợp ít nhất 50% bằng cách chỉ tổng hợp các thay đổi thực sự.
  • Giảm thời gian thay đổi văn bản bài viết xuất hiện trong âm thanh vì có ít âm thanh hơn để tổng hợp.
  • Thêm tệp âm thanh tùy ý giữa các đoạn văn mà không cần tổng hợp lại toàn bộ bài viết. Ví dụ: chúng tôi có thể đưa tệp âm thanh vào phiên bản âm thanh rút gọn của các bài báo cao cấp để tách đoạn đầu tiên khỏi ghi chú tiếp theo rằng cần đăng ký để nghe phiên bản đầy đủ.

Trong tháng đầu tiên sau khi ra mắt tính năng “nghe bài viết” trong các bài báo trên SZ.de của chúng tôi, chúng tôi đã nhận được rất nhiều phản hồi tích cực của người dùng. Chúng tôi đã có thể tiếp cận gần 30,000 người dùng trong 2 tháng đầu tiên sau khi ra mắt. Từ những người dùng này, khoảng 200 chuyển đổi thành đăng ký trả phí chỉ khi nghe đoạn giới thiệu của một bài báo đằng sau tường phí của chúng tôi. Tính năng “nghe bài viết” không nằm sau tường phí của chúng tôi, nhưng người dùng chỉ có thể nghe đầy đủ các bài báo cao cấp nếu họ có đăng ký. Trang web của chúng tôi cũng cung cấp các bài báo miễn phí mà không có tường trả phí. Trong tương lai, chúng tôi sẽ mở rộng tính năng này sang các nền tảng SZ khác, đặc biệt là các ứng dụng tin tức dành cho thiết bị di động của chúng tôi.


Lưu ý

Cách Süddeutsche Zeitung tối ưu hóa quy trình tường thuật âm thanh của họ với Amazon Polly PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Jakob Kohl là Nhà phát triển phần mềm tại Süddeutsche Zeitung, nơi anh ấy thích làm việc với các công nghệ hiện đại trong một nhóm trang web nhanh nhẹn. Anh ấy là một trong những nhà phát triển chính của tính năng “lắng nghe một bài báo SZ”. Trong thời gian rảnh rỗi, anh ấy thích đóng đồ nội thất bằng gỗ, nơi thiết kế kỹ thuật và hình ảnh cũng quan trọng như phát triển web.

Dấu thời gian:

Thêm từ Học máy AWS