오디오 분석의 필수 프로세스인 화자 분할은 화자 ID를 기반으로 오디오 파일을 분할합니다. 이 게시물에서는 화자 분할을 위해 Hugging Face의 PyAnnote를 통합하는 방법을 살펴봅니다. 아마존 세이지 메이커 비동기 엔드포인트.
AWS 클라우드에서 SageMaker를 사용하여 스피커 분할 및 클러스터링 솔루션을 배포하는 방법에 대한 포괄적인 가이드를 제공합니다. 다중 스피커(100개 이상) 오디오 녹음을 처리하는 애플리케이션에 이 솔루션을 사용할 수 있습니다.
솔루션 개요
아마존 전사 AWS의 화자 분할을 위한 유용한 서비스입니다. 그러나 지원되지 않는 언어의 경우 추론을 위해 SageMaker에 배포될 다른 모델(이 경우 PyAnnote)을 사용할 수 있습니다. 추론에 최대 60초가 걸리는 짧은 오디오 파일의 경우 다음을 사용할 수 있습니다. 실시간 추론. 60초 이상 지속되면, 비 동시성의 추론을 사용해야 한다. 비동기 추론의 또 다른 이점은 처리할 요청이 없을 때 인스턴스 수를 0으로 자동 조정하여 비용을 절감한다는 것입니다.
포옹하는 얼굴 기계 학습(ML) 모델을 위한 인기 있는 오픈 소스 허브입니다. AWS와 Hugging Face에는 파트너십 이를 통해 SageMaker를 통해 PyTorch 또는 TensorFlow의 훈련 및 추론을 위한 AWS Deep Learning Containers(DLC) 세트, SageMaker Python SDK용 Hugging Face 추정기 및 예측기와 원활하게 통합할 수 있습니다. SageMaker 기능과 기능은 개발자와 데이터 과학자가 AWS에서 자연어 처리(NLP)를 쉽게 시작할 수 있도록 도와줍니다.
이 솔루션의 통합에는 다음을 사용하여 Hugging Face의 사전 훈련된 화자 분할 모델을 사용하는 것이 포함됩니다. PyAnnote 라이브러리. PyAnnote는 화자 분할을 위해 Python으로 작성된 오픈 소스 툴킷입니다. 샘플 오디오 데이터세트로 훈련된 이 모델은 오디오 파일에서 효과적인 화자 분할을 가능하게 합니다. 이 모델은 비동기 엔드포인트 설정으로 SageMaker에 배포되어 효율적이고 확장 가능한 분할 작업 처리를 제공합니다.
다음 다이어그램은 솔루션 아키텍처를 보여줍니다.
이 게시물에서는 다음 오디오 파일을 사용합니다.
스테레오 또는 다중 채널 오디오 파일은 채널 평균을 계산하여 자동으로 모노로 다운믹스됩니다. 다른 속도로 샘플링된 오디오 파일은 로드 시 자동으로 16kHz로 리샘플링됩니다.
사전 조건
다음 전제 조건을 완료하십시오.
- SageMaker 도메인 생성.
- 확인 당신의 AWS 자격 증명 및 액세스 관리 (IAM) 사용자는 생성에 필요한 액세스 권한을 가지고 있습니다. SageMaker 역할.
- AWS 계정에 ml.g5.2xlarge 인스턴스에 대한 SageMaker 엔드포인트를 호스팅하기 위한 서비스 할당량이 있는지 확인하십시오.
Hugging Face에서 PyAnnote 스피커 분할에 액세스하기 위한 모델 함수 생성
Hugging Face Hub를 사용하여 원하는 사전 훈련된 기능에 액세스할 수 있습니다. PyAnnote 스피커 분할 모델. SageMaker 엔드포인트를 생성할 때 모델 파일을 다운로드하기 위해 동일한 스크립트를 사용합니다.
다음 코드를 참조하십시오.
모델 코드 패키징
추론 코드가 포함된 inference.py와 같은 필수 파일을 준비합니다.
준비 requirements.txt
추론을 실행하는 데 필요한 필수 Python 라이브러리가 포함된 파일:
마지막으로 압축을 해주세요. inference.py
및 요구 사항.txt 파일을 저장하고 다음 이름으로 저장합니다. model.tar.gz
:
SageMaker 모델 구성
이미지 URI, 모델 데이터 위치를 지정하여 SageMaker 모델 리소스를 정의합니다. 아마존 단순 스토리지 서비스 (S3) 및 SageMaker 역할:
Amazon S3에 모델 업로드
압축된 PyAnnote Hugging Face 모델 파일을 S3 버킷에 업로드합니다.
SageMaker 비동기 엔드포인트 생성
제공된 비동기 추론 구성을 사용하여 SageMaker에 모델을 배포하기 위한 비동기 엔드포인트를 구성합니다.
엔드포인트 테스트
분할을 위해 오디오 파일을 보내고 지정된 S3 출력 경로에 저장된 JSON 출력을 검색하여 엔드포인트 기능을 평가합니다.
이 솔루션을 대규모로 배포하려면 다음을 사용하는 것이 좋습니다. AWS 람다, 아마존 단순 알림 서비스 (아마존 SNS) 또는 아마존 단순 대기열 서비스 (아마존 SQS). 이러한 서비스는 확장성, 이벤트 중심 아키텍처 및 효율적인 리소스 활용을 위해 설계되었습니다. 비동기식 추론 프로세스를 결과 처리에서 분리하는 데 도움이 되므로 각 구성 요소를 독립적으로 확장하고 급증하는 추론 요청을 보다 효과적으로 처리할 수 있습니다.
결과
모델 출력은 다음 위치에 저장됩니다. s3://sagemaker-xxxx /async_inference/output/.
출력에는 오디오 녹음이 세 개의 열로 분할되어 있음이 표시됩니다.
- 시작(초 단위의 시작 시간)
- 종료(초 단위의 종료 시간)
- 스피커(스피커 라벨)
다음 코드는 결과의 예를 보여줍니다.
정리
MinCapacity를 0으로 설정하여 조정 정책을 XNUMX으로 설정할 수 있습니다. 비동기 추론 요청 없이 자동으로 0으로 크기를 조정할 수 있습니다. 엔드포인트를 삭제할 필요는 없습니다. 저울 다시 필요할 때 0에서 사용하지 않을 때 비용을 절감합니다. 다음 코드를 참조하세요.
- SEO 기반 콘텐츠 및 PR 배포. 오늘 증폭하십시오.
- PlatoData.Network 수직 생성 Ai. 자신에게 권한을 부여하십시오. 여기에서 액세스하십시오.
- PlatoAiStream. 웹3 인텔리전스. 지식 증폭. 여기에서 액세스하십시오.
- 플라톤ESG. 탄소, 클린테크, 에너지, 환경, 태양광, 폐기물 관리. 여기에서 액세스하십시오.
- PlatoHealth. 생명 공학 및 임상 시험 인텔리전스. 여기에서 액세스하십시오.
- 출처: https://aws.amazon.com/blogs/machine-learning/deploy-a-hugging-face-pyannote-speaker-diarization-model-on-amazon-sagemaker-as-an-asynchronous-endpoint/
- :있다
- :이다
- :아니
- :어디
- $UP
- 1
- 10
- 100
- 11
- 118
- 12
- 13
- 14
- 16
- 17
- 23
- 25
- 26%
- 27
- 28
- 31
- 60
- 7
- 8
- 9
- a
- 소개
- ACCESS
- 액세스
- 친절한
- 계정
- 가로질러
- 더하다
- 추가
- 조정
- 많은
- 다시
- AI
- AI 서비스
- AI / ML
- 허용
- 수
- 또한
- 아마존
- 아마존 세이지 메이커
- Amazon Web Services
- an
- 분석
- 분석
- 및
- 어떤
- 어플리케이션
- 어플리케이션
- 접근
- 아키텍처
- 아키텍처
- 있군요
- 약
- AS
- At
- 시도
- 오디오
- 자동
- 자동적으로
- 평균화
- AWS
- 기반으로
- BE
- 된
- 이익
- 혜택
- 사이에
- 사업
- 사업
- by
- CAN
- 기능
- 케이스
- 가지 경우
- 변경
- 채널
- 수업
- 클라이언트
- 클라우드
- 클러스터링
- 암호
- 열
- 댓글
- 공통의
- 구성 요소
- 포괄적 인
- 개념
- 병발 사정
- 구성
- 용기
- 이 포함되어 있습니다
- 컨트롤
- 비용
- 비용 절감
- 비용
- 계산
- 만들
- 만들기
- 고객
- 데이터
- 취급
- 깊은
- 깊은 학습
- 밝히다
- 배달하다
- 탐구하다
- 데모
- 배포
- 배포
- 배치
- 디자인
- 설계
- 원하는
- 개발
- 개발자
- 개발자
- 개발
- 도표
- 다른
- 디지털
- 디지털 전환
- 예배 규칙서
- 서류
- 말라
- 다운로드
- 역동적 인
- 마다
- 완화
- 유효한
- 효과적으로
- 효율적인
- 효율적으로
- 수
- end
- 종점
- 오류
- 필수
- 예
- 외
- 경험
- 탐험
- 페이스메이크업
- 특징
- 입양 부모로서의 귀하의 적합성을 결정하기 위해 미국 이민국에
- 파일
- 수행원
- 럭셔리
- 체재
- 에
- 기능
- 기능
- 생성적인
- 얻을
- 점점
- GitHub의
- 안내
- 핸들
- 있다
- he
- 도움
- 도움
- 도움이
- 그의
- 호스팅
- 방법
- How To
- 그러나
- HTML
- HTTP
- HTTPS
- 허브
- 포옹 얼굴
- 수백
- 통합 인증
- if
- 설명하다
- 영상
- 구현
- import
- in
- 독립하여
- 인도
- 예
- 통합
- 완성
- 으로
- 포함
- IT
- 여행
- JPG
- JSON
- 키
- 라벨
- 언어
- 언어
- 넓은
- 시작
- 배우기
- 수
- 도서관
- 처럼
- 하중
- 로드
- 위치
- 이상
- 기계
- 기계 학습
- 방법
- ML
- 모델
- 모델
- 배우기
- 여러
- 자연의
- 자연 언어 처리
- 필요한
- 필요
- 필요
- nlp
- 아니
- 없음
- 공고
- 번호
- 대상
- of
- 제공
- on
- 열 수
- 오픈 소스
- 최적화
- or
- OS
- 기타
- 우리의
- 아웃
- 출력
- 위에
- 전체
- 자신의
- 팬더
- 부품
- 통로
- 권한
- 관로
- 플랫폼
- 플라톤
- 플라톤 데이터 인텔리전스
- 플라토데이터
- 정책
- 인기 문서
- 게시하다
- powered
- 예측
- 전제 조건
- 방법
- 처리
- 프로젝트
- 증명
- 제공
- 제공
- 제공
- 제공
- 공개
- 놓다
- Python
- 파이 토치
- 문의
- 율
- 도달
- 실시간
- 방송
- 감소
- 감소
- 참조
- 지방
- 회원가입
- 신뢰할 수있는
- 교체
- 대표
- 요청
- 필수
- 요구조건 니즈
- 의지
- 제품 자료
- 응답
- 결과
- 결과
- return
- 직위별
- 달리기
- 달리는
- 현자
- 판매
- 같은
- 견본
- 찜하기
- 저금
- 확장성
- 확장성
- 규모
- 스케일링
- 과학자
- 스크립트
- 스크립트
- SDK
- 원활한
- 완벽하게
- 초
- 부문
- 참조
- 분할
- 세그먼트
- 전송
- 분리
- 서비스
- 서비스
- 세션
- 세션
- 세트
- 설정
- 설치
- 몇몇의
- 셰이프
- 짧은
- 영상을
- 쇼
- 단순, 간단, 편리
- 단일
- 소프트웨어
- 소프트웨어 개발
- 해결책
- 솔루션
- 출처
- Speaker
- 전문가
- 구체적인
- 지정
- 지정
- 지출하다
- 분열
- 스타트
- 시작
- 저장
- 저장
- 똑 바른
- 전략의
- 성공
- 제안
- 확인
- 체계
- 소요
- 작업
- 기술
- 텐서 흐름
- 보다
- 그
- XNUMXD덴탈의
- 그곳에.
- Bowman의
- 그들
- 이
- 수천
- 세
- 을 통하여
- 시간
- 에
- 오늘
- 툴킷
- 화제
- 토치
- 훈련 된
- 트레이닝
- 변환
- 변압기
- 시도
- 회전
- ...에
- 사용
- 익숙한
- 사용자
- 사용
- 사용
- 변형
- 버전
- 동영상
- W
- 기다리다
- 필요
- we
- 웹
- 웹 서비스
- 언제
- 어느
- 누구
- 의지
- 과
- 일하는
- 쓴
- 년
- 자신의
- 너의
- 제퍼 넷
- 제로