이 코드 없는 워크플로를 사용하여 Amazon Transcribe로 비디오 자막 생성

플라톤에 의해 재발행

팔로워 : 0

비디오 콘텐츠의 자막 제작은 조직의 규모에 관계없이 문제가 됩니다. 이러한 과제를 해결하기 위해, 아마존 전사 서비스 내에서 직접 자막을 만들 수 있는 유용한 기능이 있습니다. 시작하는 데 기계 학습(ML) 또는 코드 작성이 필요하지 않습니다. 이 게시물은 Amazon Web Services 계정 내에서 Amazon Transcribe를 사용하여 비디오 자막을 생성하기 위한 코드 없는 워크플로를 설정하는 과정을 안내합니다.

자막 대 폐쇄 자막

이용 약관 자막 및 자막 일반적으로 같은 의미로 사용되며 둘 다 화면에 표시되는 음성 텍스트를 나타냅니다. 그러나 자막과 폐쇄 캡션(산업 및 접근성 정의 기반)의 주요 차이점은 폐쇄 캡션에는 음성 텍스트와 배경 음악에 대한 설명이 모두 포함되어 있으며 더 풍부한 접근성 경험을 위해 오디오 트랙 내에서 발생하는 소리에 대한 설명이 포함되어 있다는 것입니다. . 이 게시물은 화자 식별, 음향 효과 또는 음악 설명이 포함되지 않은 자동 음성 인식(ASR) 기술을 사용하여 전사된 구어 자막 파일 생성에만 중점을 둡니다. Amazon Transcribe는 업계 표준 SubRip 텍스트(*.srt) 및 웹 비디오 텍스트 트랙(*.vtt) 형식을 지원합니다. 자막 제작.

다음 이미지는 웹 비디오 플레이어 내에서 토글된 자막의 예를 보여줍니다.

자막은 비디오 콘텐츠의 도달 범위와 포괄성을 모두 확장함으로써 비디오 제작자에게 도움이 됩니다. 화면에 비디오의 음성 오디오 부분을 표시함으로써 자막은 비모국어 사용자와 소리가 들리지 않는 환경에 있는 사람들을 포함하여 더 많은 청중이 오디오/비디오 콘텐츠에 액세스할 수 있도록 합니다.

자막의 이점은 분명하지만 비디오 제작자는 전통적으로 자막을 만드는 데 어려움을 겪었습니다. 수동 작업에 크게 의존하는 기존 생성 프로세스의 시간 소모적이고 리소스 집약적인 요구 사항으로 인해 장애물이 발생합니다. 기존 자막 방식은 수동이며 완료하는 데 며칠에서 몇 주가 소요될 수 있으므로 모든 제작 일정과 호환되지 않을 수 있습니다. 마찬가지로 많은 회사에서 수동 전사 서비스를 활용하지만 이러한 프로세스는 종종 확장되지 않고 유지 관리 비용이 많이 듭니다. Amazon Transcribe를 사용하면 ML 기반 기술을 사용하여 음성을 텍스트로 쉽게 변환할 수 있으며 비디오 제작자가 이러한 문제를 해결할 수 있습니다.

솔루션 개요

이 게시물은 다음을 사용하여 자막을 생성하기 위한 코드 없는 워크플로를 안내합니다. 아마존 단순 스토리지 서비스 (Amazon S3) 및 Amazon Transcribe.

Amazon S3는 어디에서나 원하는 양의 데이터를 저장하고 검색할 수 있도록 구축된 객체 스토리지입니다. 이 게시물은 프로세스를 안내합니다. S3 버킷 생성 오디오 파일을 업로드합니다. 사용자가 Amazon S3에 데이터를 저장할 때 버킷 및 객체라는 리소스로 작업합니다. ㅏ 버킷 개체를 위한 컨테이너입니다. 안 대상 파일 및 해당 파일을 설명하는 모든 메타데이터입니다.

Amazon Transcribe는 완전 관리형 및 지속적으로 훈련된 ML 모델을 사용하여 오디오/비디오 파일을 텍스트로 변환하는 ASR 서비스입니다. Amazon Transcribe 입력 및 출력은 Amazon S3에 저장됩니다. Amazon Transcribe는 오디오 데이터(Amazon S3 버킷의 미디어 파일 또는 미디어 스트림)를 가져와 텍스트 데이터로 변환합니다. Amazon Transcribe를 사용하면 오디오 입력을 수집하고, 높은 정확도로 읽기 쉬운 스크립트를 생성하고, 다음을 사용하여 도메인별 어휘에 맞게 출력을 사용자 지정할 수 있습니다. 사용자 정의 언어 모델 (CLM) 및 맞춤 어휘및 고객 개인 정보 보호를 위해 콘텐츠 필터링. 고객은 다음을 포함한 다양한 비즈니스 애플리케이션에 Amazon Transcribe를 사용할 수 있습니다. 음성 기반 고객 서비스 통화의 전사, 오디오/비디오 콘텐츠에 자막 생성및 (텍스트 기반) 콘텐츠 분석 수행 오디오/비디오 콘텐츠에. 이 게시물에서는 트랜스크립션 작업을 생성하고 작업 출력을 검토하는 방법을 보여줍니다.

비디오 연습을 선호하는 경우 Amazon Transcribe 비디오 스낵 에피소드를 참조하십시오. 코드를 작성하지 않고 비디오 자막 만들기.

사전 조건

솔루션을 살펴보려면 다음 전제 조건이 있어야 합니다.

An AWS 계정 충분히 AWS 자격 증명 및 액세스 관리 (IAM) 사용자 권한
음성이 포함된 오디오/비디오 파일 Amazon Transcribe 지원 언어 그리고 지원되는 입력 형식

샘플 오디오/비디오 파일이 아직 없는 경우 컴퓨터나 스마트폰의 비디오 녹화 응용 프로그램을 사용하여 만들 수 있습니다. 녹음할 때 최고 수준의 전사 품질을 보장하려면 마이크에 대고 명확하게 말하고 있는지 확인하십시오. 또 다른 옵션은 무료로 사용할 수 있는 음성 단어를 포함하는 다운로드를 찾는 것입니다. 팟캐스트와 같은및 이 게시물에 제공된 비디오 연습, Amazon Transcribe에서 수집할 수 있습니다. 녹음 또는 다운로드한 파일은 AWS 계정에 업로드하려면 데스크톱에서 액세스할 수 있어야 합니다.

시작하기 전에 검토 아마존 전사 및 아마존 S3 서비스 가격 책정 페이지.

S3 버킷 생성

이 게시물에서는 입력과 출력을 분리된 상태로 유지하기 위해 두 개의 S3 버킷을 생성합니다.

Amazon S3 콘솔에서 버킷 만들기.
각 버킷에 전역적으로 고유한 이름을 지정합니다.
기본 설정을 사용하여 조직의 정책을 준수하도록 합니다.
사용 버킷 버전 관리 및 기본 서버 측 암호화 (권장).
왼쪽 메뉴에서 버킷 만들기.

다음 스크린샷은 입력 버킷의 구성을 보여줍니다.

입력용 S3 버킷은 이제 오디오/비디오 파일을 업로드할 준비가 되었습니다. 이 출판 당시, Amazon Transcribe의 최대 입력 크기는 2GB입니다.. 동영상 파일이 해당 용량을 초과하거나 Amazon Transcribe에서 기본적으로 지원하지 않는 형식, 사용 고려 AWS Elemental 미디어 변환 에 오디오 전용 출력 생성. 이는 오디오 파일이 일반적으로 비디오 파일보다 훨씬 작고 Amazon Transcribe가 트랜스크립션 및 자막을 생성하기 위해 비디오 트랙이 아닌 오디오 트랙만 필요하기 때문에 유용합니다.

S3 버킷에 소스 파일 업로드

소스 파일을 업로드하려면 다음 단계를 완료하십시오.

Amazon S3 콘솔에서 입력 버킷을 선택합니다.
왼쪽 메뉴에서 가이드라가.
바탕 화면에서 파일을 선택합니다.
기본 스토리지 클래스 및 암호화 설정을 수락하거나 조직의 정책에 따라 수정합니다.
왼쪽 메뉴에서 가이드라가.

트랜스크립션 작업 만들기

Amazon S3에서 입력 파일이 준비되었으므로 이제 Amazon Transcribe에서 트랜스크립션 작업을 생성합니다.

에 Amazon Transcribe 콘솔선택한다. 전사 작업 탐색 창에서
왼쪽 메뉴에서 직업 만들기.

이 연습에서는 주로 기본 옵션을 사용합니다. 그러나 조직의 요구 사항에 가장 적합한 구성을 선택해야 합니다.

럭셔리 성함, 이 작업과 결과 파일의 이름을 입력합니다.
럭셔리 언어 설정, 고르다 특정 언어.
럭셔리 지원하는 언어, 입력 파일의 소스 언어를 선택하십시오.
럭셔리 모델 유형고르다 일반 모델.

이 데모에서는 일반 모델을 사용하지만 교육 및 사용을 탐색하는 것이 좋습니다. 사용자 정의 언어 모델 산업별 용어 또는 머리글자어와 같은 특정 사용 사례의 정확도 향상을 위해. 사용자 지정 언어 모델에 대해 자세히 알아보려면 Amazon Transcribe 비디오 스낵을 시청하십시오. 맞춤 언어 모델(CLM)을 사용하여 전사 정확도 향상.

럭셔리 S3의 입력 파일 위치선택한다. S3 찾아보기.
필사할 입력 버킷과 오디오/비디오 파일을 선택합니다.
럭셔리 출력 데이터 위치 유형 정보, 고르다 고객이 지정한 S3 버킷.
럭셔리 S3의 출력 파일 대상선택한다. S3 찾아보기.
새로 생성된 출력 버킷을 선택합니다.

XNUMXD덴탈의 자막 파일 형식 섹션은 이 전체 게시물에서 가장 필수적인 두 가지 옵션을 제공합니다. Amazon Transcribe 트랜스크립션 작업의 일부로 *.srt 및 *.vtt 형식의 출력을 선택할 수 있습니다. 이 글을 쓰는 시점에서 하나 또는 둘 다를 선택해도 Amazon Transcribe 작업에 추가 비용이 추가되지 않습니다.

이 게시물의 경우 둘 다 선택 SRT 및 VTT.
럭셔리 시작 인덱스 지정선택한다. 0 or 1.

이 값은 순서대로 첫 번째 자막의 시작 번호를 나타냅니다. 어떤 값을 선택해야 할지 잘 모르겠다면 1 가장 일반적입니다.

설정이 완료되면 다음을 선택합니다. 다음 보기.
필요에 따라 선택적 설정을 구성합니다.

Amazon Transcribe는 오디오 식별 옵션을 제공합니다. 채널 or 스피커, 대체 결과, 개인 식별 정보 수정, 어휘 필터링및 맞춤 어휘. 이 특정 게시물의 경우 이러한 구성 옵션을 건너뛸 수 있습니다. 작업 구성 옵션에 대해 자세히 알아보려면 Amazon Transcribe 비디오 스낵 에피소드를 시청하십시오. 맞춤 어휘, 사용자 정의 언어 모델및 어휘 필터링.

왼쪽 메뉴에서 직업 만들기.

작업 출력 검토

비디오 자막을 만드는 전사 작업이 시작됩니다. 다음 스크린샷과 같이 작업 상태가 작업 세부 정보 패널에 표시됩니다. 작업이 완료되면 출력 데이터 위치를 선택하여 S3 버킷에서 새로 생성된 자막을 찾습니다.

자막은 *.srt 또는 *.vtt 확장자로 식별됩니다. S3 버킷에서 객체를 선택하면 파일을 다운로드할 수 있는 옵션이 있습니다.

이러한 자막은 일반 텍스트 형식이므로 모든 텍스트 편집기에서 결과 변환을 보고 편집할 수 있습니다. *.srt 및 *.vtt 파일을 비교하면 미묘한 차이점과 함께 많은 유사점을 알 수 있습니다.

다음은 *.srt 형식의 예입니다.

1
00:00:00,240 --> 00:00:04,440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04,600 --> 00:00:07,250
You either need to hire someone to do it manually, 3
00:00:07,490 --> 00:00:10,790
implement applications that are difficult to maintain, or use 4
00:00:10,790 --> 00:00:13,920
hard to integrate services that yield poor results. 5
00:00:14,540 --> 00:00:17,290
Amazon Transcribe takes a huge leap forward.

다음은 *.vtt 형식의 예입니다.

WEBVTT 1
00:00:00.240 --> 00:00:04.440
Transcribing audio can be complex, time consuming and expensive. 2
00:00:04.600 --> 00:00:07.250
You either need to hire someone to do it manually, 3
00:00:07.490 --> 00:00:10.790
implement applications that are difficult to maintain, or use 4
00:00:10.790 --> 00:00:13.920
hard to integrate services that yield poor results. 5
00:00:14.540 --> 00:00:17.290
Amazon Transcribe takes a huge leap forward.

숫자는 자막이 표시되는 순서를 나타냅니다. 타임코드는 자막이 표시될 때를 나타냅니다. 텍스트는 자막 텍스트 자체입니다.

이제 모든 변경 또는 수정이 텍스트 편집기 내에서 직접 가능하며 *.srt 또는 *.vtt 확장자로 저장할 때 호환성을 유지합니다. 비디오 플랫폼 자체, 비디오 편집 응용 프로그램 또는 비디오 플레이어 내에서 변경 사항을 미리 볼 수도 있습니다.

VLC *.srt 및 *.vtt 자막을 지원하는 인기 있는 오픈 소스 및 크로스 플랫폼 비디오 플레이어입니다. VLC 내에서 비디오를 통해 자막을 자동으로 재생하려면 원본 비디오와 자막 파일을 파일 확장자 앞에 정확히 동일한 파일 이름을 가진 동일한 디렉토리에 배치하십시오.

이제 VLC 내에서 비디오 파일을 열면 자막 파일이 비디오 플레이어 창 내에서 자동으로 감지되고 재생되어야 합니다.

정리

향후 비용이 발생하지 않도록 빈 및 삭제 입력 및 출력에 사용되는 S3 버킷. 버킷에 포함된 모든 객체가 영구적으로 제거되므로 필요한 모든 파일이 저장되어 있는지 확인하십시오. 에 스크립트 작성 콘솔, 더 이상 필요하지 않은 작업을 선택하고 삭제합니다.

결론

이제 코드를 작성하지 않고도 비디오 자막 생성 프로세스를 보강하고 가속화할 수 있는 완전한 종단 간 자막 생성 워크플로를 만들었습니다. 몇 분 만에 S3 스토리지 버킷을 생성하고 Amazon S3에 파일을 업로드하고 자막 생성에 Amazon Transcribe를 사용했습니다. 그런 다음 검토를 위해 결과 *.srt 및 *.vtt 자막 파일을 다운로드하고 대상 플랫폼에 업로드할 수 있습니다.

이 워크플로는 특히 비디오 워크플로를 위해 Amazon Transcribe의 자동 음성 인식(ASR) 기술을 사용하여 생성된 오디오/비디오 자막에 중점을 두었습니다. 이 워크플로우만으로는 화자 식별, 음향 효과, 음악 설명 및 정확성을 위한 카피 편집 검토를 포함하여 접근성에 대한 더 높은 표준을 충족할 수 있는 인간 기반 폐쇄 자막 프로세스를 대체할 수 없습니다. 이 게시물에 설명된 텍스트 편집 방법을 활용하여 초기 Amazon Transcribe 작업이 완료된 후 이러한 요소를 추가할 수 있습니다. 또한 고급 브라우저 기반 자막 생성, 미리보기 및 복사 편집을 위해 배포를 탐색할 수 있습니다. AWS에서 콘텐츠 현지화 AWS Solution Architects가 심사하고 다음을 포함하는 솔루션 구현 가이드. 이 솔루션은 다음과 같은 추가 기능을 제공합니다. 브라우저 내 미리보기 및 자막 편집, 자막 번역 제공 아마존 번역에서 제공하는 컴퓨터 비전 기능 아마존 인식.

Amazon Transcribe의 자막 생성 기능에 대한 이 데모를 즐겼다면 오디오/비디오 워크플로를 가속화하기 위한 추가 기능에 대해 자세히 살펴보십시오. 자막 생성 자동화 및 크기 조정을 지원하는 추가 세부 정보 및 코드 샘플은 다음을 참조하십시오. 비디오 자막 만들기. 탐색 및 자막 생성 워크플로 개발에 행운을 빕니다.

저자에 관하여

제이슨 오말리 미디어, 커뮤니케이션 및 기술 산업 솔루션을 설계하는 파트너를 지원하는 AWS의 선임 파트너 솔루션 아키텍트입니다. AWS에 합류하기 전에 Jason은 Conan O'Brien의 Team Coco, WarnerMedia 및 Media.Monks를 비롯한 회사에서 미디어 및 엔터테인먼트 업계에서 13년을 보냈습니다. Jason은 AWS에서 미디어 워크로드를 구축하기 전에 텔레비전 제작 및 후반 작업에서 경력을 쌓기 시작했습니다. Jason이 파트너 및 고객을 위한 솔루션을 만들지 않을 때는 아내와 아들과 함께 모험을 하거나 지속 가능성에 대해 읽을 수 있습니다.

타임 스탬프 : 2022 년 5 월 10 일

타임 스탬프 : 10년 2023월 XNUMX일

코드가 필요 없는 이 워크플로를 사용하여 Amazon Transcribe로 비디오 자막 생성

플라톤에 의해 재발행

자막 대 폐쇄 자막

솔루션 개요

사전 조건

S3 버킷 생성

S3 버킷에 소스 파일 업로드

트랜스크립션 작업 만들기

작업 출력 검토

정리

결론

저자에 관하여

더보기 AWS 기계 학습

Amazon Transcribe에서 사용자 지정 어휘를 사용하여 고객 에이전트 호출의 전사 정확도 향상

업데이트된 Amazon Kendra용 ServiceNow 커넥터(V2) 발표

서비스 공급자가 자연어 처리를 사용하여 Amazon Comprehend로 고객 티켓에서 통찰력을 얻는 방법

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정