Tạo phụ đề video bằng Amazon Transcribe bằng quy trình làm việc không cần mã này

Được xuất bản lại bởi Plato

Người theo dõi: 0

Việc tạo phụ đề trên nội dung video đặt ra nhiều thách thức bất kể tổ chức lớn hay nhỏ. Để giải quyết những thách thức đó, Phiên âm Amazon có một tính năng hữu ích cho phép tạo phụ đề trực tiếp trong dịch vụ. Không cần máy học (ML) hoặc viết mã để bắt đầu. Bài đăng này hướng dẫn bạn cách thiết lập quy trình không mã để tạo phụ đề video bằng Amazon Transcribe trong tài khoản Amazon Web Services của bạn.

Phụ đề so với phụ đề chi tiết

Các điều khoản phụ đề và Phụ đề chi tiết thường được sử dụng thay thế cho nhau và cả hai đều đề cập đến văn bản nói được hiển thị trên màn hình. Tuy nhiên, điểm khác biệt cơ bản giữa phụ đề và phụ đề chi tiết (dựa trên định nghĩa ngành và khả năng tiếp cận) là phụ đề chi tiết chứa cả bản phiên âm của từ được nói cũng như mô tả về nhạc nền hoặc âm thanh phát ra trong bản âm thanh để có trải nghiệm khả năng truy cập phong phú hơn . Bài đăng này chỉ tập trung vào việc tạo tệp phụ đề lời nói được phiên âm bằng công nghệ nhận dạng giọng nói tự động (ASR) không chứa nhận dạng người nói, hiệu ứng âm thanh hoặc mô tả âm nhạc. Amazon Transcribe hỗ trợ các định dạng SubRip Text (* .srt) và Web Video Text Tracks (* .vtt) tiêu chuẩn của ngành cho tạo phụ đề.

Hình ảnh sau đây cho thấy một ví dụ về phụ đề được bật trong trình phát video trên web.

Phụ đề mang lại lợi ích cho người tạo video bằng cách mở rộng phạm vi tiếp cận và tính bao gồm của nội dung video của họ. Bằng cách hiển thị phần âm thanh đã nói của video trên màn hình, phụ đề làm cho nội dung âm thanh / video có thể truy cập được với lượng khán giả lớn hơn, bao gồm cả những người không phải là người nói tiếng mẹ đẻ và những người ở trong môi trường không nghe được âm thanh.

Mặc dù lợi ích của phụ đề là rõ ràng, nhưng những người tạo video theo truyền thống thường gặp trở ngại trong việc tạo phụ đề. Những trở ngại nảy sinh do các yêu cầu tốn nhiều thời gian và tài nguyên của quá trình sáng tạo truyền thống chủ yếu dựa vào nỗ lực thủ công. Các phương pháp phụ đề truyền thống là thủ công và có thể mất vài ngày đến vài tuần để hoàn thành, do đó có thể không tương thích với tất cả các lịch trình sản xuất. Tương tự như vậy, nhiều công ty sử dụng các dịch vụ sao chép thủ công, nhưng các quy trình này thường không mở rộng quy mô và tốn kém để duy trì. Amazon Transcribe giúp bạn dễ dàng chuyển đổi giọng nói thành văn bản bằng các công nghệ dựa trên ML và giúp người tạo video giải quyết những vấn đề này.

Tổng quan về giải pháp

Bài đăng này hướng dẫn quy trình làm việc không có mã để tạo phụ đề bằng cách sử dụng Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và Amazon Transcribe.

Amazon S3 là bộ lưu trữ đối tượng được xây dựng để lưu trữ và truy xuất bất kỳ lượng dữ liệu nào từ bất kỳ đâu. Bài đăng này hướng dẫn quy trình để tạo một nhóm S3 và tải lên một tệp âm thanh. Khi người dùng lưu trữ dữ liệu trong Amazon S3, họ sẽ làm việc với các tài nguyên được gọi là nhóm và đối tượng. Một xô là vật chứa đồ vật. Một vật là một tệp và bất kỳ siêu dữ liệu nào mô tả tệp đó.

Amazon Transcribe là một dịch vụ ASR sử dụng các mô hình ML được quản lý hoàn toàn và được đào tạo liên tục để chuyển đổi các tệp âm thanh / video thành văn bản. Đầu vào và đầu ra của Amazon Transcribe được lưu trữ trong Amazon S3. Amazon Transcribe lấy dữ liệu âm thanh, một tệp phương tiện trong nhóm Amazon S3 hoặc một luồng phương tiện và chuyển đổi nó thành dữ liệu văn bản. Amazon Transcribe cho phép bạn nhập âm thanh đầu vào, tạo bản ghi âm dễ đọc với độ chính xác cao, tùy chỉnh đầu ra của bạn cho các từ vựng cụ thể của miền bằng cách sử dụng mô hình ngôn ngữ tùy chỉnh (CLM) và từ vựng tùy chỉnhvà lọc nội dung để đảm bảo quyền riêng tư của khách hàng. Khách hàng có thể chọn sử dụng Amazon Transcribe cho nhiều ứng dụng kinh doanh khác nhau, bao gồm phiên âm của các cuộc gọi dịch vụ khách hàng dựa trên giọng nói, tạo phụ đề trên nội dung âm thanh / videovà tiến hành phân tích nội dung (dựa trên văn bản) trên nội dung âm thanh / video. Đối với bài đăng này, chúng tôi chứng minh việc tạo một công việc phiên âm và xem xét kết quả đầu ra của công việc.

Nếu bạn thích hướng dẫn bằng video, hãy tham khảo tập Video đồ ăn nhẹ trên Amazon Transcribe Tạo phụ đề video mà không cần viết bất kỳ mã nào.

Điều kiện tiên quyết

Để thực hiện giải pháp, bạn phải có các điều kiện tiên quyết sau:

An Tài khoản AWS với đủ Quản lý truy cập và nhận dạng AWS (IAM) đặc quyền người dùng
Tệp âm thanh/video có lời nói trong một Ngôn ngữ được hỗ trợ của Amazon Transcribe và trong một định dạng đầu vào được hỗ trợ

Nếu chưa có tệp âm thanh / video mẫu, bạn có thể tạo tệp bằng ứng dụng quay video trên máy tính hoặc điện thoại thông minh của mình. Đảm bảo rằng bạn đang nói rõ ràng vào micrô để đảm bảo chất lượng phiên âm ở mức cao nhất khi ghi âm. Một tùy chọn khác là tìm một bản tải xuống miễn phí có sẵn có từ được nói, chẳng hạn như một podcast, hoặc là hướng dẫn video được cung cấp trong bài đăng này, có thể được nhập bằng Amazon Transcribe. Tệp đã ghi hoặc đã tải xuống cần có thể truy cập được trên máy tính để bàn của bạn để tải lên tài khoản AWS của bạn.

Trước khi bạn bắt đầu, hãy xem lại Phiên âm Amazon và Amazon S3 các trang định giá để định giá dịch vụ.

Tạo nhóm S3

Đối với bài đăng này, chúng tôi tạo hai nhóm S3 để giữ cho đầu vào và đầu ra được tách biệt.

Trên bảng điều khiển Amazon S3, chọn Tạo xô.
Đặt cho mỗi nhóm một tên duy nhất trên toàn cầu.
Sử dụng cài đặt mặc định để đảm bảo tuân thủ các chính sách của tổ chức của bạn.
Kích hoạt tính năng phiên bản xô và mã hóa phía máy chủ mặc định (khuyên dùng).
Chọn Tạo xô.

Ảnh chụp màn hình sau đây cho thấy cấu hình cho nhóm đầu vào.

Bộ chứa S3 cho đầu vào hiện đã sẵn sàng để tải lên tệp âm thanh / video. Tại thời điểm xuất bản này, kích thước đầu vào tối đa cho Amazon Transcribe là 2 GB. Nếu tệp video vượt quá số lượng đó hoặc định dạng không được hỗ trợ bởi Amazon Transcribe, cân nhắc sử dụng AWS Elemental MediaChuyển đổi đến tạo đầu ra chỉ có âm thanh. Điều này có lợi vì tệp âm thanh thường nhỏ hơn nhiều so với tệp video và Amazon Transcribe chỉ yêu cầu bản âm thanh chứ không phải bản video để tạo bản chép lời và phụ đề.

Tải tệp nguồn lên bộ chứa S3

Để tải lên tệp nguồn của bạn, hãy hoàn thành các bước sau:

Trên bảng điều khiển Amazon S3, chọn nhóm đầu vào của bạn.
Chọn Tải lên.
Chọn tệp từ màn hình của bạn.
Chấp nhận cài đặt mã hóa và lớp lưu trữ mặc định hoặc sửa đổi chúng dựa trên các chính sách của tổ chức của bạn.
Chọn Tải lên.

Tạo công việc phiên âm

Với tệp đầu vào đã sẵn sàng trong Amazon S3, chúng tôi hiện tạo công việc phiên âm trong Amazon Transcribe.

trên Bảng điều khiển phiên âm Amazon, chọn Công việc phiên âm trong khung điều hướng.
Chọn Tạo việc làm.

Hướng dẫn này chủ yếu sử dụng các tùy chọn mặc định; tuy nhiên, bạn nên chọn cấu hình phù hợp nhất với yêu cầu của tổ chức của bạn.

Trong Họ tên, nhập tên cho công việc này và tệp kết quả.
Trong Cài đặt ngôn ngữ, lựa chọn Ngôn ngữ cụ thể.
Trong Ngôn ngữ, chọn ngôn ngữ nguồn của tệp đầu vào.
Trong Loại mô hìnhlựa chọn Mô hình chung.

Chúng tôi sử dụng mô hình chung cho bản trình diễn này, nhưng chúng tôi khuyến khích bạn khám phá đào tạo và sử dụng mô hình ngôn ngữ tùy chỉnh để cải thiện độ chính xác cho các trường hợp sử dụng cụ thể chẳng hạn như các thuật ngữ hoặc từ viết tắt dành riêng cho ngành. Để tìm hiểu sâu hơn về các mô hình ngôn ngữ tùy chỉnh, hãy xem video giới thiệu về Amazon Transcribe Sử dụng Mô hình ngôn ngữ tùy chỉnh (CLM) để tăng cường độ chính xác của phiên âm.

Trong Nhập vị trí tệp trên S3, chọn Duyệt qua S3.
Chọn nhóm đầu vào và tệp âm thanh / video sẽ được phiên âm.
Trong Dữ liệu đầu ra thông tin loại vị trí, lựa chọn Nhóm S3 do khách hàng chỉ định.
Trong Đích tệp đầu ra trên S3, chọn Duyệt qua S3.
Chọn nhóm đầu ra mới được tạo.

Sản phẩm Định dạng tệp phụ đề phần cung cấp hai tùy chọn thiết yếu nhất của toàn bộ bài đăng này. Bạn có thể chọn đầu ra có định dạng * .srt và * .vtt như một phần của công việc phiên âm Amazon Transcribe. Tại thời điểm viết bài này, việc chọn một hoặc cả hai không làm tăng thêm bất kỳ chi phí nào cho công việc Phiên âm trên Amazon.

Đối với bài đăng này, hãy chọn cả hai SRT và VTT.
Trong Chỉ định chỉ mục bắt đầu, chọn 0 or 1.

Giá trị này đề cập đến số bắt đầu của phụ đề đầu tiên trong chuỗi. Nếu bạn không chắc nên chọn giá trị nào, 1 là phổ biến nhất.

Khi cài đặt đã sẵn sàng, hãy chọn Sau.
Định cấu hình bất kỳ cài đặt tùy chọn nào theo nhu cầu của bạn.

Amazon Transcribe trình bày các tùy chọn để nhận dạng âm thanh cho kênh or diễn giả, kết quả thay thế, chỉnh sửa PII, lọc từ vựngvà từ vựng tùy chỉnh. Đối với bài đăng cụ thể này, bạn có thể bỏ qua các tùy chọn cấu hình này. Để tìm hiểu sâu hơn về các tùy chọn cấu hình công việc, hãy xem các tập video snack của Amazon Transcribe cho từ vựng tùy chỉnh, mô hình ngôn ngữ tùy chỉnhvà lọc từ vựng.

Chọn Tạo việc làm.

Xem lại kết quả công việc

Công việc phiên âm để tạo phụ đề video của bạn bắt đầu. Trạng thái công việc, như thể hiện trong ảnh chụp màn hình sau, được hiển thị trong bảng chi tiết công việc. Khi công việc hoàn tất, hãy chọn vị trí dữ liệu đầu ra để định vị phụ đề mới được tạo trong nhóm S3.

Phụ đề được xác định bằng phần mở rộng * .srt hoặc * .vtt. Khi bạn chọn đối tượng trong nhóm S3, bạn có tùy chọn tải xuống tệp.

Vì những phụ đề này ở định dạng văn bản thuần túy, bất kỳ trình soạn thảo văn bản nào cũng có thể xem và chỉnh sửa bản phiên âm kết quả. So sánh các tệp * .srt và * .vtt cho thấy nhiều điểm tương đồng, với những khác biệt nhỏ.

Sau đây là một ví dụ về định dạng * .srt:

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

Sau đây là một ví dụ về định dạng * .vtt:

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

Các con số cho biết thứ tự hiển thị phụ đề. Mã thời gian cho biết khi phụ đề được hiển thị. Văn bản là văn bản phụ đề.

Mọi thay đổi hoặc sửa đổi hiện có thể thực hiện trực tiếp trong trình soạn thảo văn bản và vẫn tương thích khi được lưu với phần mở rộng * .srt hoặc * .vtt. Bạn cũng có thể xem trước các thay đổi trên chính nền tảng video, bên trong ứng dụng chỉnh sửa video hoặc trong trình phát video.

VLC là một trình phát video đa nền tảng và mã nguồn mở phổ biến hỗ trợ phụ đề * .srt và * .vtt. Để tự động phát phụ đề trên video trong VLC, hãy đặt cả video gốc và tệp phụ đề vào cùng một thư mục với cùng tên tệp trước phần mở rộng tệp.

Bây giờ khi bạn mở tệp video trong VLC, tệp phụ đề sẽ tự động phát hiện và phát lại trong cửa sổ trình phát video.

Làm sạch

Để tránh phát sinh các khoản phí trong tương lai, trống và xóa nhóm S3 được sử dụng cho đầu vào và đầu ra. Đảm bảo rằng bạn đã lưu trữ tất cả các tệp cần thiết vì điều này sẽ xóa vĩnh viễn tất cả các đối tượng có trong nhóm. Trên Bảng điều khiển phiên âm, chọn và xóa bất kỳ công việc nào không còn cần thiết.

Kết luận

Giờ đây, bạn đã tạo một quy trình tạo phụ đề đầu cuối hoàn chỉnh để tăng cường và đẩy nhanh quá trình tạo phụ đề video của mình và tất cả mà không cần viết bất kỳ mã nào. Chỉ trong vài phút, bạn đã tạo nhóm lưu trữ S3, tải tệp lên Amazon S3 và sử dụng Amazon Transcribe để tạo phụ đề. Sau đó, bạn có thể tải xuống các tệp phụ đề * .srt và * .vtt kết quả để xem xét và tải chúng lên nền tảng đích.

Quy trình làm việc này tập trung vào phụ đề âm thanh / video được tạo bằng công nghệ nhận dạng giọng nói tự động (ASR) trong Amazon Transcribe dành riêng cho quy trình công việc video. Quy trình làm việc này không thể thay thế cho quy trình phụ đề khép kín dựa trên con người, có thể đáp ứng các tiêu chuẩn cao hơn về khả năng tiếp cận, bao gồm nhận dạng người nói, hiệu ứng âm thanh, mô tả âm nhạc và đánh giá sao chép về độ chính xác. Bạn có thể sử dụng phương pháp chỉnh sửa văn bản được mô tả trong bài đăng này để thêm các yếu tố này sau khi công việc Phiên bản Amazon ban đầu hoàn tất. Hơn nữa, để tạo phụ đề, xem trước và sao chép dựa trên trình duyệt nâng cao hơn, bạn có thể khám phá việc triển khai Bản địa hóa nội dung trên AWS giải pháp được kiểm tra bởi AWS Solution Architects và bao gồm một hướng dẫn thực hiện. Giải pháp này cung cấp các tính năng bổ sung như xem trước trong trình duyệt và chỉnh sửa phụ đề, bản dịch phụ đề được cung cấp bởi Amazon Dịchvà khả năng thị giác máy tính được cung cấp bởi Nhận thức lại Amazon.

Nếu bạn thích phần trình diễn này về khả năng tạo phụ đề của Amazon Transcribe, hãy cân nhắc tìm hiểu sâu hơn về các tính năng và khả năng bổ sung để tăng tốc quy trình công việc âm thanh / video của bạn. Để biết thêm chi tiết và mẫu mã để hỗ trợ tự động hóa và mở rộng quy mô tạo phụ đề, hãy tham khảo Tạo phụ đề video. Chúc bạn may mắn trong việc khám phá và phát triển quy trình tạo phụ đề của mình.

Lưu ý

Jason O'Malley là Kiến trúc sư Giải pháp Đối tác cấp Sr. tại AWS hỗ trợ các đối tác thiết kế các giải pháp ngành công nghiệp truyền thông, truyền thông và công nghệ. Trước khi gia nhập AWS, Jason đã có 13 năm làm việc trong lĩnh vực truyền thông và giải trí tại các công ty bao gồm Conan O'Brien's Team Coco, WarnerMedia và Media.Monks. Jason bắt đầu sự nghiệp của mình trong lĩnh vực sản xuất truyền hình và hậu kỳ trước khi xây dựng khối lượng công việc truyền thông trên AWS. Khi Jason không tạo ra các giải pháp cho các đối tác và khách hàng, anh ấy có thể được tìm thấy đang phiêu lưu cùng vợ và con trai mình hoặc đọc về tính bền vững.

Dấu thời gian: 10 Tháng Năm, 2022

Dấu thời gian: Jan 10, 2023

Tạo phụ đề video với Amazon Transcribe bằng quy trình làm việc không mã này

Được xuất bản lại bởi Plato

Phụ đề so với phụ đề chi tiết

Tổng quan về giải pháp

Điều kiện tiên quyết

Tạo nhóm S3

Tải tệp nguồn lên bộ chứa S3

Tạo công việc phiên âm

Xem lại kết quả công việc

Làm sạch

Kết luận

Lưu ý

Thêm từ Học máy AWS

Cải thiện độ chính xác của phiên âm của các cuộc gọi từ nhân viên khách hàng với từ vựng tùy chỉnh trong Amazon Transcribe

Thông báo về trình kết nối ServiceNow (V2) được cập nhật cho Amazon Kendra

Cách các nhà cung cấp dịch vụ có thể sử dụng xử lý ngôn ngữ tự nhiên để có được thông tin chi tiết từ vé của khách hàng với Amazon Comprehend

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản