아마존 전사 음성을 텍스트로 변환하는 기능을 애플리케이션에 쉽게 추가할 수 있게 해주는 완전 관리형 자동 음성 인식(ASR) 서비스입니다. 오늘 우리는 자동 음성 인식을 XNUMX% 이상으로 확장하는 차세대 수십억 매개변수 음성 기반 모델 기반 시스템을 발표하게 되어 기쁘게 생각합니다. 100 언어. 이 게시물에서는 이 시스템의 몇 가지 이점, 회사에서 이를 사용하는 방법 및 시작하는 방법에 대해 논의합니다. 아래에는 전사 출력의 예도 제공됩니다.
Transcribe의 음성 기반 모델은 언어와 억양 전반에 걸쳐 인간 음성의 고유한 보편적 패턴을 학습하기 위해 동급 최고의 자체 감독 알고리즘을 사용하여 학습되었습니다. 100개 이상의 언어로 작성된 수백만 시간의 레이블이 지정되지 않은 오디오 데이터에 대해 훈련되었습니다. 학습 레시피는 스마트 데이터 샘플링을 통해 최적화되어 언어 간 학습 데이터의 균형을 유지함으로써 전통적으로 과소대표된 언어도 높은 정확도 수준에 도달하도록 보장합니다.
Carbyne은 긴급 통화 응답자를 위한 클라우드 기반의 미션 크리티컬 컨택 센터 솔루션을 개발하는 소프트웨어 회사입니다. Carbyne의 사명은 응급 구조원이 생명을 구할 수 있도록 돕는 것이며, 언어가 이들의 목표를 방해할 수는 없습니다. Amazon Transcribe를 사용하여 임무를 수행하는 방법은 다음과 같습니다.
“AI 기반 Carbyne Live Audio Translation은 매년 미국을 방문하는 최대 68만 명의 외국인 방문객 외에도 집에서 영어 이외의 언어를 사용하는 79만 명의 미국인을 위한 긴급 대응 개선을 돕는 것을 직접적인 목표로 하고 있습니다. Amazon Transcribe의 새로운 다국어 기반 모델 기반 ASR을 활용함으로써 Carbyne은 생명을 구하는 응급 서비스를 민주화하는 데 훨씬 더 나은 역량을 갖추게 될 것입니다. 사람. 중요합니다.”
– Alex Dizengof, Carbyne의 공동 창립자이자 CTO.
Amazon Transcribe는 음성 기반 모델을 활용하여 대부분의 언어에서 20%~50% 사이의 상당한 정확도 향상을 제공합니다. 까다롭고 데이터가 부족한 영역인 전화 통화에서 정확도 향상은 30%에서 70% 사이입니다. 상당한 정확성 향상 외에도 이 대규모 ASR 모델은 보다 정확한 구두점 및 대문자 사용으로 가독성도 향상되었습니다. 생성 AI의 출현으로 수천 개의 기업이 Amazon Transcribe를 사용하여 오디오 콘텐츠에서 풍부한 통찰력을 얻고 있습니다. 정확도가 크게 향상되고 100개 이상의 언어에 대한 지원을 제공하는 Amazon Transcribe는 이러한 모든 사용 사례에 긍정적인 영향을 미칠 것입니다. 배치 모드에서 Amazon Transcribe를 사용하는 모든 기존 고객과 신규 고객은 API 엔드포인트나 입력 매개변수를 변경할 필요 없이 음성 기반 모델 기반 음성 인식에 액세스할 수 있습니다.
새로운 ASR 시스템은 사용 편의성, 사용자 정의, 사용자 안전 및 개인 정보 보호와 관련된 100개 이상의 언어에 걸쳐 여러 가지 주요 기능을 제공합니다. 여기에는 자동 구두점, 사용자 정의 어휘, 자동 언어 식별, 화자 분할, 단어 수준 신뢰도 점수, 사용자 정의 어휘 필터와 같은 기능이 포함됩니다. 다양한 악센트, 소음 환경 및 음향 조건에 대한 시스템의 확장된 지원을 통해 보다 정확한 출력을 생성할 수 있으며 이를 통해 애플리케이션에 음성 기술을 효과적으로 포함할 수 있습니다.
다양한 악센트와 소음 조건에 대한 Amazon Transcribe의 높은 정확도, 수많은 언어 지원, 광범위한 부가 가치 기능 세트를 통해 수천 개의 기업이 다음과 같은 역량을 갖추게 될 것입니다. 오디오 콘텐츠에서 풍부한 통찰력을 얻을 뿐만 아니라 다양한 도메인에서 오디오 및 비디오 콘텐츠의 접근성과 검색 가능성을 높입니다. 예를 들어, 컨택 센터는 고객 통화를 기록하고 분석하여 통찰력을 파악하고 결과적으로 고객 경험과 상담원 생산성을 향상시킵니다. 콘텐츠 제작자와 미디어 배포자는 Amazon Transcribe를 사용하여 자동으로 자막을 생성하여 콘텐츠 접근성을 향상시킵니다.
Amazon Transcribe 시작하기
당신은을 사용할 수 있습니다 AWS 명령 줄 인터페이스 (AWS CLI), AWS 관리 콘솔, 그리고 다양한 AWS SDK 일괄 전사를 위해 동일한 내용을 계속 사용합니다. StartTranscriptionJob
사용자 측에서 코드나 매개변수를 변경할 필요 없이 향상된 ASR 모델의 성능 이점을 얻을 수 있는 API입니다. AWS CLI 및 콘솔 사용에 대한 자세한 내용은 다음을 참조하십시오. AWS CLI를 사용하여 전사 및 AWS Management Console을 사용하여 전사각각.
첫 번째 단계는 미디어 파일을 아마존 단순 스토리지 서비스 (Amazon S3) 버킷은 어디서나 원하는 양의 데이터를 저장하고 검색할 수 있도록 구축된 객체 스토리지 서비스입니다. Amazon S3는 매우 저렴한 비용으로 업계 최고의 내구성, 가용성, 성능, 보안 및 사실상 무제한의 확장성을 제공합니다. 자신의 S3 버킷에 기록을 저장하도록 선택하거나 Amazon Transcribe가 보안 기본 버킷을 사용하도록 선택할 수 있습니다. S3 버킷 사용에 대해 자세히 알아보려면 다음을 참조하세요. Amazon S3 버킷 생성, 구성 및 작업.
전사 출력
Amazon Transcribe는 출력에 JSON 표현을 사용합니다. 텍스트 형식과 항목별 형식이라는 두 가지 형식으로 전사 결과를 제공합니다. API 엔드포인트 또는 입력 매개변수와 관련하여 변경된 사항은 없습니다.
텍스트 형식은 텍스트 블록으로 녹취록을 제공하는 반면, 항목별 형식은 항목별 추가 메타데이터와 함께 시기적절하게 정렬된 녹취 항목 형식으로 녹취록을 제공합니다. 두 형식 모두 출력 파일에 병렬로 존재합니다.
트랜스크립션 작업을 생성할 때 선택한 기능에 따라 Amazon Transcribe는 트랜스크립션 결과에 대한 추가 및 보강된 보기를 생성합니다. 다음 예제 코드를 참조하세요.
견해는 다음과 같습니다.
- 성적 증명서 – 대표
transcripts
요소에는 성적표의 텍스트 형식만 포함됩니다. 다중 화자, 다중 채널 시나리오에서는 모든 대화 내용의 연결이 단일 블록으로 제공됩니다. - 스피커 – 대표
speaker_labels
요소에는 화자별로 그룹화된 내용의 텍스트 및 항목별 형식이 포함됩니다. 멀티스피커 기능이 활성화된 경우에만 사용할 수 있습니다. - 채널 – 대표
channel_labels
요소에는 채널별로 그룹화된 스크립트의 텍스트 및 항목별 형식이 포함됩니다. 다중 채널 기능이 활성화된 경우에만 사용할 수 있습니다. - 항목 – 대표
items
요소에는 항목별 성적표 형식만 포함됩니다. 다중 스피커, 다중 채널 시나리오에서는 항목이 스피커 및 채널을 나타내는 추가 속성으로 강화됩니다. - 세그먼트 – 대표
segments
요소에는 대체 전사본으로 그룹화된 전사본의 텍스트 및 항목별 형식이 포함됩니다. 대체 결과 기능이 활성화된 경우에만 사용할 수 있습니다.
결론
AWS에서는 고객을 대신하여 끊임없이 혁신하고 있습니다. Amazon Transcribe의 언어 지원을 100개 이상의 언어로 확장함으로써 고객이 다양한 언어 배경의 사용자에게 서비스를 제공할 수 있습니다. 이는 접근성을 향상시킬 뿐만 아니라 전 세계적으로 통신 및 정보 교환을 위한 새로운 길을 열어줍니다. 이 게시물에서 설명한 기능에 대해 자세히 알아보려면 다음을 확인하세요. 기능 페이지 및 새로운 게시물은 뭐야?.
저자 소개
Sumit 쿠마르 AWS AI 언어 서비스 팀의 기술 수석 제품 관리자입니다. 그는 다양한 분야에서 10년의 제품 관리 경험을 갖고 있으며 AI/ML에 열정을 갖고 있습니다. 직장 밖에서 Sumit은 여행을 좋아하고 크리켓과 잔디 테니스를 즐깁니다.
비벡 싱 AWS AI 언어 서비스 팀의 제품 관리 부문 수석 관리자입니다. 그는 Amazon Transcribe 제품 팀을 이끌고 있습니다. AWS에 합류하기 전에는 소비자 결제, 소매 등 다양한 Amazon 조직에서 제품 관리 역할을 맡았습니다. Vivek은 워싱턴 주 시애틀에 거주하며 달리기와 하이킹을 즐깁니다.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- :있다
- :이다
- :아니
- $UP
- 10
- 100
- 14
- 24
- 7
- a
- 소개
- ACCESS
- 접근성
- 정확한
- 가로질러
- 더하다
- 또한
- 추가
- 출현
- 에이전트
- AI
- AI / ML
- 겨냥한
- 알렉스
- 알고리즘
- All
- 따라
- 또한
- 대안
- 아마존
- 아마존 전사
- Amazon Web Services
- 미국
- 양
- an
- 분석하다
- 및
- 알리다
- 발표
- 매년
- 어떤
- 어딘가에
- API를
- 어플리케이션
- 있군요
- AS
- At
- 오디오
- Automatic
- 자동적으로
- 유효성
- 가능
- 애비뉴
- AWS
- 배경
- 잔액
- BE
- 때문에
- 대신에
- 이하
- 혜택
- 더 나은
- 사이에
- 블록
- 두
- 폭
- 내장
- 비자 면제 프로그램에 해당하는 국가의 시민권을 가지고 있지만
- by
- 전화
- 통화
- CAN
- 기능
- 자본화
- 가지 경우
- 센터
- 센터
- 도전
- 이전 단계로 돌아가기
- 변경
- 채널
- 채널
- 검사
- 왼쪽 메뉴에서
- 공동 설립자
- 암호
- 의사 소통
- 기업
- 회사
- 진행완료
- 조건
- 자신
- 구성
- 콘솔에서
- 끊임없이
- 소비자
- CONTACT
- 연락 센터
- 이 포함되어 있습니다
- 함유량
- 계속
- 비용
- 국가
- 생성
- 만들기
- 크리켓
- CTO (최고 기술 담당자)
- 관습
- 고객
- 고객 경험
- 고객
- 사용자 정의
- 데이터
- 태만
- 제공
- 민주화하다
- 개발
- 다른
- 직접
- 토론
- 논의 된
- 유통 업체
- 몇몇의
- 도메인
- 도메인
- 내구성
- 완화
- 사용의 용이성
- 효과적으로
- 중
- 요소
- 포함
- 비상 사태
- 권한
- 가능
- 사용 가능
- 수
- end
- 종점
- 영어
- 강화
- 강화
- 풍성한
- 보장
- 기업
- 환경
- 갖추어 준
- 조차
- 모든
- 예
- 교환
- 있다
- 현존하는
- 확대하는
- 확장하다
- 경험
- 연장
- 특색
- 특징
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- 필터링
- 먼저,
- 수행원
- 다음
- 럭셔리
- 외국의
- 형태
- 체재
- Foundation
- 에
- 충분히
- 생성
- 생성적인
- 제너레이티브 AI
- 얻을
- 글로벌
- 세계적인 규모
- 목표
- 행복한
- 있다
- he
- 개최
- 도움
- 도움이
- 도움이
- 여기에서 지금 확인해 보세요.
- hi
- 높은
- 홈
- 진료 시간
- 방법
- How To
- HTML
- HTTP
- HTTPS
- 사람의
- 식별
- 확인
- 영향
- 개선
- 개선하는
- 개량
- 개량
- in
- 포함
- 증가
- 업계 최고의
- 정보
- 고유의
- 혁신
- 입력
- 통찰력
- 예
- 으로
- IT
- 항목
- 그
- 일
- 가입
- JPG
- JSON
- 키
- 언어
- 언어
- 넓은
- 오퍼
- 배우다
- 레벨
- 레버리지
- 라인
- 살고있다
- 삶
- loves
- 낮은
- 확인
- 제작
- 관리
- 구축
- 매니저
- 미디어
- 메타 데이터
- 백만
- 수백만
- Mission
- 모드
- 모델
- 배우기
- 가장
- 필요
- 신제품
- 다음 세대
- 노이즈
- 아무것도
- 번호
- 대상
- of
- 제공
- on
- 만
- 열립니다
- 최적화
- or
- 조직
- 기타
- 우리의
- 아웃
- 출력
- 출력
- 외부
- 위에
- 자신의
- 평행
- 매개 변수
- 매개 변수
- 열렬한
- 패턴
- 결제
- 용
- 성능
- 사람
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 연주
- 긍정적으로
- 게시하다
- powered
- 교장
- 이전에
- 개인 정보 보호
- 생산
- 제작자
- 프로덕트
- 제품 관리
- 제품 관리자
- 생산력
- 속성
- 제공
- 제공
- 제공
- 추구하다
- 도달
- 인식
- 참조
- 관련
- 대표
- 대표되는
- 점
- 각기
- 응답
- 결과
- 결과
- 소매
- 풍부한
- 역할
- 달리는
- 안전
- 같은
- 찜하기
- 확장성
- 규모
- 시나리오
- 시애틀
- 안전해야합니다.
- 보안
- 참조
- 세그먼트
- 고르다
- 연장자
- 서브
- 서비스
- 서비스
- 설정
- 몇몇의
- 상당한
- 크게
- 단순, 간단, 편리
- 단일
- 스마트 한
- 소프트웨어
- 솔루션
- 일부
- 말하다
- Speaker
- 스피커
- 연설
- 음성 인식
- 음성 - 텍스트
- 시작
- Status
- 단계
- 저장
- 저장
- 똑 바른
- 그후
- 실질적인
- 자막
- 이러한
- SUPPORT
- 체계
- 팀
- 테크니컬
- 기술
- 본문
- 보다
- 그
- XNUMXD덴탈의
- 그들의
- 그것에 의하여
- Bowman의
- 그들
- 이
- 수천
- 을 통하여
- 적시에
- 에
- 오늘
- 전통적으로
- 훈련 된
- 트레이닝
- 성적 증명서
- 번역
- 여행
- 두
- 보편적 인
- 무제한
- 잠금을 해제
- 사용
- 사용자
- 사용자
- 사용
- 사용
- 종류
- 여러
- 대단히
- Video
- 보기
- 사실상
- 방문자
- 목소리
- 방법..
- we
- 웹
- 웹 서비스
- 환영
- 잘
- 언제
- 이므로
- 어느
- 누구
- 의지
- 과
- 없이
- 작업
- 일하는
- 년
- 자신의
- 너의
- 제퍼 넷