Việc tạo phụ đề trên nội dung video đặt ra nhiều thách thức bất kể tổ chức lớn hay nhỏ. Để giải quyết những thách thức đó, Phiên âm Amazon có một tính năng hữu ích cho phép tạo phụ đề trực tiếp trong dịch vụ. Không cần máy học (ML) hoặc viết mã để bắt đầu. Bài đăng này hướng dẫn bạn cách thiết lập quy trình không mã để tạo phụ đề video bằng Amazon Transcribe trong tài khoản Amazon Web Services của bạn.
Phụ đề so với phụ đề chi tiết
Các điều khoản phụ đề và Phụ đề chi tiết thường được sử dụng thay thế cho nhau và cả hai đều đề cập đến văn bản nói được hiển thị trên màn hình. Tuy nhiên, điểm khác biệt cơ bản giữa phụ đề và phụ đề chi tiết (dựa trên định nghĩa ngành và khả năng tiếp cận) là phụ đề chi tiết chứa cả bản phiên âm của từ được nói cũng như mô tả về nhạc nền hoặc âm thanh phát ra trong bản âm thanh để có trải nghiệm khả năng truy cập phong phú hơn . Bài đăng này chỉ tập trung vào việc tạo tệp phụ đề lời nói được phiên âm bằng công nghệ nhận dạng giọng nói tự động (ASR) không chứa nhận dạng người nói, hiệu ứng âm thanh hoặc mô tả âm nhạc. Amazon Transcribe hỗ trợ các định dạng SubRip Text (* .srt) và Web Video Text Tracks (* .vtt) tiêu chuẩn của ngành cho tạo phụ đề.
Hình ảnh sau đây cho thấy một ví dụ về phụ đề được bật trong trình phát video trên web.
Phụ đề mang lại lợi ích cho người tạo video bằng cách mở rộng phạm vi tiếp cận và tính bao gồm của nội dung video của họ. Bằng cách hiển thị phần âm thanh đã nói của video trên màn hình, phụ đề làm cho nội dung âm thanh / video có thể truy cập được với lượng khán giả lớn hơn, bao gồm cả những người không phải là người nói tiếng mẹ đẻ và những người ở trong môi trường không nghe được âm thanh.
Mặc dù lợi ích của phụ đề là rõ ràng, nhưng những người tạo video theo truyền thống thường gặp trở ngại trong việc tạo phụ đề. Những trở ngại nảy sinh do các yêu cầu tốn nhiều thời gian và tài nguyên của quá trình sáng tạo truyền thống chủ yếu dựa vào nỗ lực thủ công. Các phương pháp phụ đề truyền thống là thủ công và có thể mất vài ngày đến vài tuần để hoàn thành, do đó có thể không tương thích với tất cả các lịch trình sản xuất. Tương tự như vậy, nhiều công ty sử dụng các dịch vụ sao chép thủ công, nhưng các quy trình này thường không mở rộng quy mô và tốn kém để duy trì. Amazon Transcribe giúp bạn dễ dàng chuyển đổi giọng nói thành văn bản bằng các công nghệ dựa trên ML và giúp người tạo video giải quyết những vấn đề này.
Tổng quan về giải pháp
Bài đăng này hướng dẫn quy trình làm việc không có mã để tạo phụ đề bằng cách sử dụng Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) và Amazon Transcribe.
Amazon S3 là bộ lưu trữ đối tượng được xây dựng để lưu trữ và truy xuất bất kỳ lượng dữ liệu nào từ bất kỳ đâu. Bài đăng này hướng dẫn quy trình để tạo một nhóm S3 và tải lên một tệp âm thanh. Khi người dùng lưu trữ dữ liệu trong Amazon S3, họ sẽ làm việc với các tài nguyên được gọi là nhóm và đối tượng. Một xô là vật chứa đồ vật. Một vật là một tệp và bất kỳ siêu dữ liệu nào mô tả tệp đó.
Amazon Transcribe là một dịch vụ ASR sử dụng các mô hình ML được quản lý hoàn toàn và được đào tạo liên tục để chuyển đổi các tệp âm thanh / video thành văn bản. Đầu vào và đầu ra của Amazon Transcribe được lưu trữ trong Amazon S3. Amazon Transcribe lấy dữ liệu âm thanh, một tệp phương tiện trong nhóm Amazon S3 hoặc một luồng phương tiện và chuyển đổi nó thành dữ liệu văn bản. Amazon Transcribe cho phép bạn nhập âm thanh đầu vào, tạo bản ghi âm dễ đọc với độ chính xác cao, tùy chỉnh đầu ra của bạn cho các từ vựng cụ thể của miền bằng cách sử dụng mô hình ngôn ngữ tùy chỉnh (CLM) và từ vựng tùy chỉnhvà lọc nội dung để đảm bảo quyền riêng tư của khách hàng. Khách hàng có thể chọn sử dụng Amazon Transcribe cho nhiều ứng dụng kinh doanh khác nhau, bao gồm phiên âm của các cuộc gọi dịch vụ khách hàng dựa trên giọng nói, tạo phụ đề trên nội dung âm thanh / videovà tiến hành phân tích nội dung (dựa trên văn bản) trên nội dung âm thanh / video. Đối với bài đăng này, chúng tôi chứng minh việc tạo một công việc phiên âm và xem xét kết quả đầu ra của công việc.
Nếu bạn thích hướng dẫn bằng video, hãy tham khảo tập Video đồ ăn nhẹ trên Amazon Transcribe Tạo phụ đề video mà không cần viết bất kỳ mã nào.
Điều kiện tiên quyết
Để thực hiện giải pháp, bạn phải có các điều kiện tiên quyết sau:
- An Tài khoản AWS với đủ Quản lý truy cập và nhận dạng AWS (IAM) đặc quyền người dùng
- Tệp âm thanh/video có lời nói trong một Ngôn ngữ được hỗ trợ của Amazon Transcribe và trong một định dạng đầu vào được hỗ trợ
Nếu chưa có tệp âm thanh / video mẫu, bạn có thể tạo tệp bằng ứng dụng quay video trên máy tính hoặc điện thoại thông minh của mình. Đảm bảo rằng bạn đang nói rõ ràng vào micrô để đảm bảo chất lượng phiên âm ở mức cao nhất khi ghi âm. Một tùy chọn khác là tìm một bản tải xuống miễn phí có sẵn có từ được nói, chẳng hạn như một podcast, hoặc là hướng dẫn video được cung cấp trong bài đăng này, có thể được nhập bằng Amazon Transcribe. Tệp đã ghi hoặc đã tải xuống cần có thể truy cập được trên máy tính để bàn của bạn để tải lên tài khoản AWS của bạn.
Trước khi bạn bắt đầu, hãy xem lại Phiên âm Amazon và Amazon S3 các trang định giá để định giá dịch vụ.
Tạo nhóm S3
Đối với bài đăng này, chúng tôi tạo hai nhóm S3 để giữ cho đầu vào và đầu ra được tách biệt.
- Trên bảng điều khiển Amazon S3, chọn Tạo xô.
- Đặt cho mỗi nhóm một tên duy nhất trên toàn cầu.
- Sử dụng cài đặt mặc định để đảm bảo tuân thủ các chính sách của tổ chức của bạn.
- Kích hoạt tính năng phiên bản xô và mã hóa phía máy chủ mặc định (khuyên dùng).
- Chọn Tạo xô.
Ảnh chụp màn hình sau đây cho thấy cấu hình cho nhóm đầu vào.
Bộ chứa S3 cho đầu vào hiện đã sẵn sàng để tải lên tệp âm thanh / video. Tại thời điểm xuất bản này, kích thước đầu vào tối đa cho Amazon Transcribe là 2 GB. Nếu tệp video vượt quá số lượng đó hoặc định dạng không được hỗ trợ bởi Amazon Transcribe, cân nhắc sử dụng AWS Elemental MediaChuyển đổi đến tạo đầu ra chỉ có âm thanh. Điều này có lợi vì tệp âm thanh thường nhỏ hơn nhiều so với tệp video và Amazon Transcribe chỉ yêu cầu bản âm thanh chứ không phải bản video để tạo bản chép lời và phụ đề.
Tải tệp nguồn lên bộ chứa S3
Để tải lên tệp nguồn của bạn, hãy hoàn thành các bước sau:
- Trên bảng điều khiển Amazon S3, chọn nhóm đầu vào của bạn.
- Chọn Tải lên.
- Chọn tệp từ màn hình của bạn.
- Chấp nhận cài đặt mã hóa và lớp lưu trữ mặc định hoặc sửa đổi chúng dựa trên các chính sách của tổ chức của bạn.
- Chọn Tải lên.
Tạo công việc phiên âm
Với tệp đầu vào đã sẵn sàng trong Amazon S3, chúng tôi hiện tạo công việc phiên âm trong Amazon Transcribe.
- trên Bảng điều khiển phiên âm Amazon, chọn Công việc phiên âm trong khung điều hướng.
- Chọn Tạo việc làm.
Hướng dẫn này chủ yếu sử dụng các tùy chọn mặc định; tuy nhiên, bạn nên chọn cấu hình phù hợp nhất với yêu cầu của tổ chức của bạn.
- Trong Họ tên, nhập tên cho công việc này và tệp kết quả.
- Trong Cài đặt ngôn ngữ, lựa chọn Ngôn ngữ cụ thể.
- Trong Ngôn ngữ, chọn ngôn ngữ nguồn của tệp đầu vào.
- Trong Loại mô hìnhlựa chọn Mô hình chung.
Chúng tôi sử dụng mô hình chung cho bản trình diễn này, nhưng chúng tôi khuyến khích bạn khám phá đào tạo và sử dụng mô hình ngôn ngữ tùy chỉnh để cải thiện độ chính xác cho các trường hợp sử dụng cụ thể chẳng hạn như các thuật ngữ hoặc từ viết tắt dành riêng cho ngành. Để tìm hiểu sâu hơn về các mô hình ngôn ngữ tùy chỉnh, hãy xem video giới thiệu về Amazon Transcribe Sử dụng Mô hình ngôn ngữ tùy chỉnh (CLM) để tăng cường độ chính xác của phiên âm.
- Trong Nhập vị trí tệp trên S3, chọn Duyệt qua S3.
- Chọn nhóm đầu vào và tệp âm thanh / video sẽ được phiên âm.
- Trong Dữ liệu đầu ra thông tin loại vị trí, lựa chọn Nhóm S3 do khách hàng chỉ định.
- Trong Đích tệp đầu ra trên S3, chọn Duyệt qua S3.
- Chọn nhóm đầu ra mới được tạo.
Sản phẩm Định dạng tệp phụ đề phần cung cấp hai tùy chọn thiết yếu nhất của toàn bộ bài đăng này. Bạn có thể chọn đầu ra có định dạng * .srt và * .vtt như một phần của công việc phiên âm Amazon Transcribe. Tại thời điểm viết bài này, việc chọn một hoặc cả hai không làm tăng thêm bất kỳ chi phí nào cho công việc Phiên âm trên Amazon.
Giá trị này đề cập đến số bắt đầu của phụ đề đầu tiên trong chuỗi. Nếu bạn không chắc nên chọn giá trị nào, 1 là phổ biến nhất.
- Khi cài đặt đã sẵn sàng, hãy chọn Sau.
- Định cấu hình bất kỳ cài đặt tùy chọn nào theo nhu cầu của bạn.
Amazon Transcribe trình bày các tùy chọn để nhận dạng âm thanh cho kênh or diễn giả, kết quả thay thế, chỉnh sửa PII, lọc từ vựngvà từ vựng tùy chỉnh. Đối với bài đăng cụ thể này, bạn có thể bỏ qua các tùy chọn cấu hình này. Để tìm hiểu sâu hơn về các tùy chọn cấu hình công việc, hãy xem các tập video snack của Amazon Transcribe cho từ vựng tùy chỉnh, mô hình ngôn ngữ tùy chỉnhvà lọc từ vựng.
Xem lại kết quả công việc
Công việc phiên âm để tạo phụ đề video của bạn bắt đầu. Trạng thái công việc, như thể hiện trong ảnh chụp màn hình sau, được hiển thị trong bảng chi tiết công việc. Khi công việc hoàn tất, hãy chọn vị trí dữ liệu đầu ra để định vị phụ đề mới được tạo trong nhóm S3.
Phụ đề được xác định bằng phần mở rộng * .srt hoặc * .vtt. Khi bạn chọn đối tượng trong nhóm S3, bạn có tùy chọn tải xuống tệp.
Vì những phụ đề này ở định dạng văn bản thuần túy, bất kỳ trình soạn thảo văn bản nào cũng có thể xem và chỉnh sửa bản phiên âm kết quả. So sánh các tệp * .srt và * .vtt cho thấy nhiều điểm tương đồng, với những khác biệt nhỏ.
Sau đây là một ví dụ về định dạng * .srt:
Sau đây là một ví dụ về định dạng * .vtt:
Các con số cho biết thứ tự hiển thị phụ đề. Mã thời gian cho biết khi phụ đề được hiển thị. Văn bản là văn bản phụ đề.
Mọi thay đổi hoặc sửa đổi hiện có thể thực hiện trực tiếp trong trình soạn thảo văn bản và vẫn tương thích khi được lưu với phần mở rộng * .srt hoặc * .vtt. Bạn cũng có thể xem trước các thay đổi trên chính nền tảng video, bên trong ứng dụng chỉnh sửa video hoặc trong trình phát video.
VLC là một trình phát video đa nền tảng và mã nguồn mở phổ biến hỗ trợ phụ đề * .srt và * .vtt. Để tự động phát phụ đề trên video trong VLC, hãy đặt cả video gốc và tệp phụ đề vào cùng một thư mục với cùng tên tệp trước phần mở rộng tệp.
Bây giờ khi bạn mở tệp video trong VLC, tệp phụ đề sẽ tự động phát hiện và phát lại trong cửa sổ trình phát video.
Làm sạch
Để tránh phát sinh các khoản phí trong tương lai, trống và xóa nhóm S3 được sử dụng cho đầu vào và đầu ra. Đảm bảo rằng bạn đã lưu trữ tất cả các tệp cần thiết vì điều này sẽ xóa vĩnh viễn tất cả các đối tượng có trong nhóm. Trên Bảng điều khiển phiên âm, chọn và xóa bất kỳ công việc nào không còn cần thiết.
Kết luận
Giờ đây, bạn đã tạo một quy trình tạo phụ đề đầu cuối hoàn chỉnh để tăng cường và đẩy nhanh quá trình tạo phụ đề video của mình và tất cả mà không cần viết bất kỳ mã nào. Chỉ trong vài phút, bạn đã tạo nhóm lưu trữ S3, tải tệp lên Amazon S3 và sử dụng Amazon Transcribe để tạo phụ đề. Sau đó, bạn có thể tải xuống các tệp phụ đề * .srt và * .vtt kết quả để xem xét và tải chúng lên nền tảng đích.
Quy trình làm việc này tập trung vào phụ đề âm thanh / video được tạo bằng công nghệ nhận dạng giọng nói tự động (ASR) trong Amazon Transcribe dành riêng cho quy trình công việc video. Quy trình làm việc này không thể thay thế cho quy trình phụ đề khép kín dựa trên con người, có thể đáp ứng các tiêu chuẩn cao hơn về khả năng tiếp cận, bao gồm nhận dạng người nói, hiệu ứng âm thanh, mô tả âm nhạc và đánh giá sao chép về độ chính xác. Bạn có thể sử dụng phương pháp chỉnh sửa văn bản được mô tả trong bài đăng này để thêm các yếu tố này sau khi công việc Phiên bản Amazon ban đầu hoàn tất. Hơn nữa, để tạo phụ đề, xem trước và sao chép dựa trên trình duyệt nâng cao hơn, bạn có thể khám phá việc triển khai Bản địa hóa nội dung trên AWS giải pháp được kiểm tra bởi AWS Solution Architects và bao gồm một hướng dẫn thực hiện. Giải pháp này cung cấp các tính năng bổ sung như xem trước trong trình duyệt và chỉnh sửa phụ đề, bản dịch phụ đề được cung cấp bởi Amazon Dịchvà khả năng thị giác máy tính được cung cấp bởi Nhận thức lại Amazon.
Nếu bạn thích phần trình diễn này về khả năng tạo phụ đề của Amazon Transcribe, hãy cân nhắc tìm hiểu sâu hơn về các tính năng và khả năng bổ sung để tăng tốc quy trình công việc âm thanh / video của bạn. Để biết thêm chi tiết và mẫu mã để hỗ trợ tự động hóa và mở rộng quy mô tạo phụ đề, hãy tham khảo Tạo phụ đề video. Chúc bạn may mắn trong việc khám phá và phát triển quy trình tạo phụ đề của mình.
Lưu ý
Jason O'Malley là Kiến trúc sư Giải pháp Đối tác cấp Sr. tại AWS hỗ trợ các đối tác thiết kế các giải pháp ngành công nghiệp truyền thông, truyền thông và công nghệ. Trước khi gia nhập AWS, Jason đã có 13 năm làm việc trong lĩnh vực truyền thông và giải trí tại các công ty bao gồm Conan O'Brien's Team Coco, WarnerMedia và Media.Monks. Jason bắt đầu sự nghiệp của mình trong lĩnh vực sản xuất truyền hình và hậu kỳ trước khi xây dựng khối lượng công việc truyền thông trên AWS. Khi Jason không tạo ra các giải pháp cho các đối tác và khách hàng, anh ấy có thể được tìm thấy đang phiêu lưu cùng vợ và con trai mình hoặc đọc về tính bền vững.
- Coinsmart. Sàn giao dịch Bitcoin và tiền điện tử tốt nhất Châu Âu.
- Platoblockchain. Web3 Metaverse Intelligence. Khuếch đại kiến thức. TRUY CẬP MIỄN PHÍ.
- CryptoHawk. Radar Altcoin. Dùng thử miễn phí.
- Nguồn: https://aws.amazon.com/blogs/machine-learning/create-video-subtitles-with-amazon-transcribe-using-this-no-code-workflow/
- "
- 10
- 100
- 7
- Giới thiệu
- đẩy nhanh tiến độ
- truy cập
- khả năng tiếp cận
- Tài khoản
- thêm vào
- địa chỉ
- tiên tiến
- Tất cả
- Đã
- đàn bà gan dạ
- Amazon Web Services
- số lượng
- Một
- bất cứ nơi nào
- Các Ứng Dụng
- các ứng dụng
- khán giả
- âm thanh
- Tự động
- tự động hóa
- có sẵn
- AWS
- lý lịch
- hưởng lợi
- Lợi ích
- BEST
- biên giới
- Xây dựng
- kinh doanh
- Ứng dụng kinh doanh
- khả năng
- chú thích
- Tuyển Dụng
- trường hợp
- thách thức
- tải
- Chọn
- tốt nghiệp lớp XNUMX
- đóng cửa
- mã
- Chung
- Truyền thông
- Các công ty
- phức tạp
- tuân thủ
- máy tính
- Cấu hình
- An ủi
- Container
- nội dung
- tạo
- tạo ra
- Tạo
- tạo
- người sáng tạo
- khách hàng
- khách hàng
- Dịch Vụ CSKH
- khách hàng
- dữ liệu
- sâu sắc hơn
- chứng minh
- triển khai
- mô tả
- máy tính để bàn
- chi tiết
- phát triển
- khó khăn
- trực tiếp
- Không
- miền
- tải về
- biên tập viên
- hiệu ứng
- nỗ lực
- các yếu tố
- khuyến khích
- mã hóa
- đăng ký hạng mục thi
- Giải trí
- Môi trường
- thiết yếu
- ví dụ
- kinh nghiệm
- thăm dò
- khám phá
- mở rộng
- phải đối mặt
- Đặc tính
- Tính năng
- Tên
- tập trung
- tập trung
- tiếp theo
- định dạng
- Forward
- tìm thấy
- tương lai
- Tổng Quát
- tạo ra
- tạo ra
- Toàn cầu
- tốt
- hữu ích
- giúp
- Cao
- cao hơn
- Thuê
- Độ đáng tin của
- Tuy nhiên
- HTTPS
- lớn
- Xác định
- Bản sắc
- hình ảnh
- thực hiện
- cải thiện
- bao gồm
- Bao gồm
- Bao gồm
- chỉ số
- ngành công nghiệp
- đầu vào
- tích hợp
- các vấn đề
- IT
- chính nó
- Việc làm
- việc làm
- nổi tiếng
- Ngôn ngữ
- lớn hơn
- học tập
- Cấp
- địa điểm thư viện nào
- may mắn
- máy
- học máy
- duy trì
- LÀM CHO
- quản lý
- cách thức
- nhãn hiệu
- thủ công
- chất
- Phương tiện truyền thông
- phương pháp
- ML
- kiểu mẫu
- mô hình
- chi tiết
- hầu hết
- Âm nhạc
- THÔNG TIN
- cần thiết
- con số
- số
- cung cấp
- Cung cấp
- mở
- Tùy chọn
- Các lựa chọn
- gọi món
- cơ quan
- một phần
- riêng
- đối tác
- Đối tác
- nền tảng
- Play
- máy nghe nhạc
- chơi
- Chính sách
- người nghèo
- Phổ biến
- có thể
- Xem trước
- giá
- chính
- quá trình
- Quy trình
- sản xuất
- Sản lượng
- cung cấp
- chất lượng
- đạt
- Reading
- vẫn
- cần phải
- Yêu cầu
- Thông tin
- Kết quả
- xem xét
- Quy mô
- mở rộng quy mô
- Màn
- dịch vụ
- DỊCH VỤ
- thiết lập
- thể hiện
- Đơn giản
- Kích thước máy
- nhỏ
- điện thoại thông minh
- rắn
- giải pháp
- Giải pháp
- Một người nào đó
- Con trai
- Loa
- diễn giả
- đặc biệt
- Tiêu chuẩn
- tiêu chuẩn
- Bắt đầu
- bắt đầu
- bắt đầu
- Trạng thái
- là gắn
- hàng
- dòng
- hỗ trợ
- Hỗ trợ
- Hỗ trợ
- Hỗ trợ
- Tính bền vững
- dùng
- nhóm
- Công nghệ
- Công nghệ
- tivi
- Nguồn
- vì thế
- Thông qua
- thời gian
- mất thời gian
- Yêu sách
- theo dõi
- truyền thống
- theo truyền thống
- Hội thảo
- Dịch
- thường
- độc đáo
- sử dụng
- Người sử dụng
- sử dụng
- giá trị
- nhiều
- đã hiệu đính
- Video
- Xem
- tầm nhìn
- Đồng hồ đeo tay
- web
- các dịch vụ web
- trong khi
- ở trong
- không có
- từ
- Công việc
- viết
- năm
- Năng suất
- youtube