이제 Amazon SageMaker JumpStart에서 자동 음성 인식을 위한 속삭임 모델을 사용할 수 있습니다 | 아마존 웹 서비스

이제 Amazon SageMaker JumpStart에서 자동 음성 인식을 위한 속삭임 모델을 사용할 수 있습니다 | 아마존 웹 서비스

오늘 OpenAI Whisper 기반 모델을 사용하는 고객이 사용할 수 있다는 소식을 발표하게 되어 기쁘게 생각합니다. Amazon SageMaker 점프스타트. Whisper는 자동 음성 인식(ASR) 및 음성 번역을 위해 사전 훈련된 모델입니다. 680만 시간의 레이블이 지정된 데이터를 학습한 Whisper 모델은 미세 조정 없이도 많은 데이터 세트와 도메인을 일반화할 수 있는 강력한 능력을 보여줍니다. Sagemaker JumpStart는 ML을 빠르게 시작하는 데 도움이 되는 기본 제공 알고리즘 및 엔드투엔드 솔루션 템플릿 외에도 기초 모델에 대한 액세스를 제공하는 SageMaker의 기계 학습(ML) 허브입니다.

다음을 사용하여 ASR을 수행할 수도 있습니다. 아마존 전사 ,완전히 관리되고 지속적으로 훈련되는 자동 음성 인식 서비스입니다.

이번 포스팅에서는 배포 방법을 알려드리겠습니다. OpenAI 속삭임 모델을 만들고 모델을 호출하여 오디오를 텍스트로 변환하고 번역합니다.

OpenAI Whisper 모델은 다음을 사용합니다. 포옹얼굴-pytorch-추론 컨테이너. SageMaker JumpStart 모델 허브 고객은 SageMaker SDK 외부에서 모델 스크립트를 유지 관리할 필요 없이 ASR을 사용할 수 있습니다. SageMaker JumpStart 모델은 또한 네트워크 격리를 지원하는 엔드포인트를 통해 보안 상태를 개선합니다.

SageMaker의 기초 모델

SageMaker JumpStart는 SageMaker의 ML 개발 워크플로 내에서 사용할 수 있는 Hugging Face, PyTorch Hub, TensorFlow Hub 등 인기 모델 허브의 다양한 모델에 대한 액세스를 제공합니다. 최근 ML의 발전으로 인해 다음과 같은 새로운 종류의 모델이 등장했습니다. 기초 모델는 일반적으로 수십억 개의 매개변수에 대해 교육을 받고 텍스트 요약, 디지털 아트 생성, 언어 번역과 같은 광범위한 사용 사례에 적용할 수 있습니다. 이러한 모델은 훈련하는 데 비용이 많이 들기 때문에 고객은 이러한 모델을 직접 훈련하기보다는 기존의 사전 훈련된 기초 모델을 사용하고 필요에 따라 미세 조정하기를 원합니다. SageMaker는 SageMaker 콘솔에서 선택할 수 있는 선별된 모델 목록을 제공합니다.

이제 SageMaker JumpStart 내에서 다양한 모델 공급자의 기초 모델을 찾을 수 있으므로 기초 모델을 빠르게 시작할 수 있습니다. SageMaker JumpStart는 다양한 작업 또는 모델 공급자를 기반으로 하는 기초 모델을 제공하며, 모델 특성 및 사용 조건을 쉽게 검토할 수 있습니다. 테스트 UI 위젯을 사용하여 이러한 모델을 시험해 볼 수도 있습니다. 대규모 기반 모델을 사용하려는 경우 SageMaker를 종료하지 않고도 모델 공급자가 사전 구축한 노트북을 사용하여 이를 수행할 수 있습니다. 모델은 AWS에서 호스팅 및 배포되므로 대규모 모델을 평가하거나 사용하는 데 사용되는 데이터가 제XNUMX자와 공유되지 않을 것이라고 믿습니다.

OpenAI Whisper 기반 모델

Whisper는 ASR 및 음성 번역을 위해 사전 훈련된 모델입니다. 속삭임이 논문에 제안되었습니다. 대규모 Weak Supervision을 통한 강력한 음성 인식 OpenAI의 Alec Radford 등이 작성했습니다. 원본 코드를 찾을 수 있습니다 이 GitHub 저장소에서.

Whisper는 Transformer 기반 인코더-디코더 모델로, 시퀀스 간 모델. 대규모 약한 감독을 사용하여 주석이 달린 680만 시간의 레이블이 지정된 음성 데이터에 대해 훈련되었습니다. 속삭임 모델은 미세 조정 없이도 많은 데이터 세트와 도메인을 일반화할 수 있는 강력한 능력을 보여줍니다.

모델은 영어 전용 데이터 또는 다국어 데이터에 대해 학습되었습니다. 영어 전용 모델은 음성 인식 작업에 대해 훈련되었습니다. 다국어 모델은 음성 인식 및 음성 번역에 대해 훈련되었습니다. 음성 인식의 경우 모델은 같은 오디오로서의 언어. 음성 번역의 경우 모델은 다른 언어를 오디오로.

Whisper 체크포인트는 다양한 모델 크기의 XNUMX가지 구성으로 제공됩니다. 가장 작은 XNUMX개는 영어 전용 또는 다국어 데이터로 학습됩니다. 가장 큰 체크포인트는 다국어만 가능합니다. 사전 훈련된 체크포인트 XNUMX개를 모두 허깅 페이스 허브. 체크포인트는 허브의 모델에 대한 링크와 함께 다음 표에 요약되어 있습니다.

모델 이름 매개변수 수 다국어
속삭이듯 작은 39 M 가능
속삭이는 사람 74 M 가능
속삭이는 작은 244 M 가능
속삭임 중간 769 M 가능
속삭임 1550 M 가능
속삭임-대형-v2 1550 M 가능

SageMaker JumpStart에서 Whisper 모델을 사용하는 방법을 살펴보겠습니다.

OpenAI Whisper 기반 모델 WER 및 대기 시간 비교

다양한 OpenAI Whisper 모델의 WER(단어 오류율)은 LibriSpeech 테스트 청소 다음 표에 나와 있습니다. WER은 음성 인식 또는 기계 번역 시스템의 성능을 측정하는 일반적인 지표입니다. ASR 출력을 참조로 변환하는 데 필요한 대체, 삽입 및 삭제를 포함하여 오류 수 측면에서 참조 텍스트(기본 실제 또는 올바른 표기)와 ASR 시스템의 출력 간의 차이를 측정합니다. 텍스트. 이 숫자는 다음에서 가져왔습니다. 포옹하는 얼굴 웹 사이트를 방문 하십시오.

모델 WER(퍼센트)
속삭이듯 작은 7.54
속삭이는 사람 5.08
속삭이는 작은 3.43
속삭임 중간 2.9
속삭임 3
속삭임-대형-v2 3

이 블로그에서는 아래 오디오 파일을 사용하여 다양한 속삭임 모델의 음성 인식 대기 시간을 비교했습니다. 지연 시간은 사용자가 요청을 보내는 순간부터 애플리케이션에 요청이 완료되었음을 표시하는 시간까지의 시간입니다. 다음 표의 숫자는 ml.g100xlarge 인스턴스에서 호스팅되는 모델과 동일한 오디오 파일을 사용하는 총 5.2개 요청의 평균 지연 시간을 나타냅니다.

모델 평균 지연 시간 모델 출력
속삭이듯 작은 0.43 우리는 기계 조명과 함께 매우 흥미로운 시대에 살고 있습니다. ML 모델 개발 속도는 실제로 증가할 것입니다. 그러나 앞으로 몇 년 안에 우리가 승리할 수 있는 최종 상태에는 도달하지 못할 것입니다. 실제로 모든 사람이 이러한 모델에 더 쉽게 접근할 수 있도록 만들지 않는 한 말이죠.
속삭이는 사람 0.49 우리는 머신러닝으로 인해 매우 흥미로운 시대에 살고 있습니다. ML 모델 개발 속도는 실제로 증가할 것입니다. 그러나 앞으로 몇 년 안에 우리가 승리할 수 있는 최종 상태에는 도달하지 못할 것입니다. 실제로 모든 사람이 이러한 모델에 더 쉽게 접근할 수 있도록 만들지 않는 한 말이죠.
속삭이는 작은 0.84 우리는 머신러닝으로 인해 매우 흥미로운 시대에 살고 있습니다. ML 모델 개발 속도는 실제로 증가할 것입니다. 그러나 실제로 모든 사람이 이러한 모델에 더 쉽게 접근할 수 있도록 만들지 않는 한 향후 몇 년 동안 우리가 원하는 최종 상태에 도달할 수 없습니다.
속삭임 중간 1.5 우리는 머신러닝으로 인해 매우 흥미로운 시대에 살고 있습니다. ML 모델 개발 속도는 실제로 증가할 것입니다. 그러나 실제로 모든 사람이 이러한 모델에 더 쉽게 접근할 수 있도록 만들지 않는 한 향후 몇 년 동안 우리가 원하는 최종 상태에 도달할 수 없습니다.
속삭임 1.96 우리는 머신러닝으로 인해 매우 흥미로운 시대에 살고 있습니다. ML 모델 개발 속도는 실제로 증가할 것입니다. 그러나 실제로 모든 사람이 이러한 모델에 더 쉽게 접근할 수 있도록 만들지 않는 한 향후 몇 년 동안 우리가 원하는 최종 상태에 도달할 수 없습니다.
속삭임-대형-v2 1.98 우리는 머신러닝으로 인해 매우 흥미로운 시대에 살고 있습니다. ML 모델 개발 속도는 실제로 증가할 것입니다. 그러나 실제로 모든 사람이 이러한 모델에 더 쉽게 접근할 수 있도록 만들지 않는 한 향후 몇 년 동안 우리가 원하는 최종 상태에 도달할 수 없습니다.

솔루션 연습

Amazon SageMaker 콘솔이나 Amazon SageMaker 노트북을 사용하여 Whisper 모델을 배포할 수 있습니다. 이 게시물에서는 SageMaker Studio 콘솔 또는 SageMaker 노트북을 사용하여 Whisper API를 배포한 다음 배포된 모델을 음성 인식 및 언어 번역에 사용하는 방법을 보여줍니다. 이번 포스팅에 사용된 코드는 다음에서 확인하실 수 있습니다. 이 GitHub 노트북.

각 단계를 자세히 확장해 보겠습니다.

콘솔에서 Whisper 배포

  1. SageMaker JumpStart를 시작하려면 Amazon SageMaker Studio 콘솔을 열고 SageMaker JumpStart의 시작 페이지로 이동하여 JumpStart 시작하기.
  2. Whisper 모델을 선택하려면 상단의 탭을 사용하거나 다음 스크린샷과 같이 오른쪽 상단의 검색 상자를 사용할 수 있습니다. 이 예에서는 오른쪽 상단의 검색창을 사용하여 다음을 입력합니다. Whisper을 클릭한 다음 드롭다운 메뉴에서 적절한 Whisper 모델을 선택하세요.
    이제 Amazon SageMaker JumpStart에서 자동 음성 인식을 위한 속삭임 모델을 사용할 수 있습니다 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.
  3. Whisper 모델을 선택한 후 콘솔을 사용하여 모델을 배포할 수 있습니다. 배포할 인스턴스를 선택하거나 기본값을 사용할 수 있습니다.
    이제 Amazon SageMaker JumpStart에서 자동 음성 인식을 위한 속삭임 모델을 사용할 수 있습니다 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

Sagemaker 노트북에서 기초 모델 배포

먼저 배포한 다음 배포된 모델을 사용하여 다양한 작업을 해결하는 단계는 다음과 같습니다.

  1. 설정
  2. 모델 선택
  3. 아티팩트 검색 및 엔드포인트 배포
  4. ASR에 배포된 모델 사용
  5. 언어 번역을 위해 배포된 모델 사용
  6. 엔드포인트 정리

설정

이 노트북은 Python 3(데이터 과학) 커널을 사용하는 SageMaker Studio의 ml.t3.medium 인스턴스와 다음을 사용하는 Amazon SageMaker 노트북 인스턴스에서 테스트되었습니다. conda_python3 핵심.

%pip install --upgrade sagemaker --quiet

선행 학습된 모델 선택

Boto3를 사용하여 SageMaker 세션을 설정한 다음 배포하려는 모델 ID를 선택합니다.

model_id = "huggingface-asr-whisper-large-v2"

아티팩트 검색 및 엔드포인트 배포

SageMaker를 사용하면 새 데이터 세트에서 먼저 미세 조정하지 않고도 사전 훈련된 모델에 대해 추론을 수행할 수 있습니다. 사전 학습된 모델을 호스팅하려면 다음 인스턴스를 생성하세요. 세이지메이커.모델.모델 그리고 배포하세요. 다음 코드는 기본 인스턴스를 사용합니다. ml.g5.2xlarge Whisper-large-v2 모델의 추론 끝점에 대한 것입니다. 다음을 전달하여 다른 인스턴스 유형에 모델을 배포할 수 있습니다. instance_type FBI 증오 범죄 보고서 JumpStartModel 수업. 배포에는 몇 분 정도 걸릴 수 있습니다.

#Deploying the model from sagemaker.jumpstart.model import JumpStartModel
from sagemaker.serializers import JSONSerializer my_model = JumpStartModel(model_id=dropdown.value)
predictor = my_model.deploy()

자동 음성 인식

다음으로, SageMaker Jumpstart 공개에서 샘플 오디오 파일 Sample1.wav를 읽습니다. Amazon Simple Storage Service(Amazon S3) 위치를 확인하고 전달합니다. 예언자 음성 인식을 위해. 이 샘플 파일을 다른 샘플 오디오 파일로 바꿀 수 있지만 자동 음성 인식 모델에 필요하므로 .wav 파일이 16kHz에서 샘플링되었는지 확인하십시오. 입력 오디오 파일은 30초 미만이어야 합니다.

from scipy.io.wavfile import read
import json
import boto3
from sagemaker.jumpstart import utils # The wav files must be sampled at 16kHz (this is required by the automatic speech recognition models), so make sure to resample them if required. The input audio file must be less than 30 seconds.
s3_bucket = utils.get_jumpstart_content_bucket(boto3.Session().region_name)
key_prefix = "training-datasets/asr_notebook_data"
input_audio_file_name = "sample1.wav" s3_client = boto3.client("s3")
s3_client.download_file(s3_bucket, f"{key_prefix}/{input_audio_file_name }", input_audio_file_name ) with open(input_audio_file_name, "rb") as file: wav_file_read = file.read() # If you receive client error (413) please check the payload size to the endpoint. Payloads for SageMaker invoke endpoint requests are limited to about 5MB
response = predictor.predict(wav_file_read)
print(response["text"])

이 모델은 추론을 수행할 때 많은 매개변수를 지원합니다. 여기에는 다음이 포함됩니다.

  • max_length: 모델은 출력 길이까지 텍스트를 생성합니다. 지정된 경우 양의 정수여야 합니다.
  • 언어 및 작업: 여기에서 출력 언어와 작업을 지정합니다. 이 모델은 전사 또는 번역 작업을 지원합니다.
  • max_new_tokens: 생성할 최대 토큰 수입니다.
  • num_return_sequences: 반환된 출력 시퀀스의 수입니다. 지정된 경우 양의 정수여야 합니다.
  • num_beams: 그리디 검색에 사용된 빔의 개수입니다. 지정된 경우 다음보다 크거나 같은 정수여야 합니다. num_return_sequences.
  • no_repeat_ngram_size: 모델은 다음의 단어 시퀀스를 보장합니다. no_repeat_ngram_size 출력 시퀀스에서 반복되지 않습니다. 지정된 경우 1보다 큰 양의 정수여야 합니다.
  • 온도: 출력의 무작위성을 제어합니다. 온도가 높을수록 확률이 낮은 단어가 포함된 출력 시퀀스가 ​​생성되고, 온도가 낮을수록 확률이 높은 단어가 포함된 출력 시퀀스가 ​​생성됩니다. 온도가 0에 가까워지면 탐욕스러운 디코딩이 발생합니다. 지정된 경우 양수 부동 소수점이어야 합니다.
  • early_stopping: 만약 True, 모든 빔 가설이 문장 토큰의 끝에 도달하면 텍스트 생성이 완료됩니다. 지정된 경우 부울이어야 합니다.
  • do_sample: 만약 True, 가능성에 대한 다음 단어를 샘플링합니다. 지정된 경우 부울이어야 합니다.
  • top_k: 텍스트 생성의 각 단계에서 top_k 가장 가능성이 높은 단어. 지정된 경우 양의 정수여야 합니다.
  • top_p: 텍스트 생성의 각 단계에서 누적 확률로 가능한 가장 작은 단어 집합에서 샘플링합니다. top_p. 지정된 경우 0과 1 사이의 부동 소수점이어야 합니다.

엔드포인트를 호출할 때 이전 매개변수의 하위 집합을 지정할 수 있습니다. 다음으로 이러한 인수를 사용하여 엔드포인트를 호출하는 방법의 예를 보여줍니다.

언어 번역

Whisper 모델을 사용한 언어 번역을 소개하려면 다음 오디오 파일을 프랑스어로 사용하여 영어로 번역하세요. 파일은 16kHz(ASR 모델에서 요구하는 대로)로 샘플링되어야 하므로 필요한 경우 파일을 다시 샘플링하고 샘플이 30초를 초과하지 않는지 확인하십시오.

  1. 를 다운로드 sample_french1.wav 공개 S3 위치의 SageMaker JumpStart에서 Whisper 모델에 의한 번역을 위해 페이로드로 전달될 수 있습니다.
    input_audio_file_name = "sample_french1.wav" s3_client.download_file(s3_bucket, f"{key_prefix}/{input_audio_file_name }", input_audio_file_name )

  2. 작업 매개변수를 다음과 같이 설정합니다. translate 그리고 언어는 French Whisper 모델이 음성 번역을 수행하도록 강제합니다.
    with open(input_audio_file_name, "rb") as file: wav_file_read = file.read() payload = {"audio_input": wav_file_read.hex(), "language": "french", "task": "translate"} predictor.serializer = JSONSerializer()
    predictor.content_type = "application/json"

  3. 예언자 언어의 번역을 예측합니다. 클라이언트 오류(오류 413)가 수신되면 엔드포인트에 대한 페이로드 크기를 확인하세요. SageMaker 호출 엔드포인트 요청의 페이로드는 약 5MB로 제한됩니다.
    response = predictor.predict(payload)
    print(response["text"])

  4. 프랑스어 오디오 파일에서 영어로 번역된 텍스트 출력은 다음과 같습니다.
    [' Welcome to JPBSystem. We have more than 150 employees and 90% of sales. We have developed about 15 patents.']

정리

엔드포인트를 테스트한 후 SageMaker 추론 엔드포인트를 삭제하고 모델을 삭제하여 요금이 발생하지 않도록 하세요.

결론

이 게시물에서는 OpenAI Whisper 모델을 테스트하고 사용하여 Amazon SageMaker를 사용하여 흥미로운 애플리케이션을 구축하는 방법을 보여주었습니다. 지금 SageMaker에서 기초 모델을 사용해 보고 피드백을 알려주세요!

이 지침은 정보 제공의 목적으로만 제공됩니다. 귀하는 여전히 독립적인 평가를 수행하고 귀하의 특정 품질 관리 관행 및 표준과 귀하, 귀하의 콘텐츠 및 서비스에 적용되는 현지 규칙, 법률, 규정, 라이센스 및 이용 약관을 준수하도록 조치를 취해야 합니다. 이 지침에 참조된 타사 모델입니다. AWS는 본 지침에 언급된 타사 모델에 대한 통제권이나 권한이 없으며 타사 모델이 안전하고, 바이러스가 없으며, 작동 가능하거나 귀하의 프로덕션 환경 및 표준과 호환된다는 진술이나 보증을 하지 않습니다. AWS는 본 지침의 정보가 특정 결과 또는 결과를 초래할 것이라는 어떠한 진술, 보증 또는 보장도 하지 않습니다.


저자 소개

이제 Amazon SageMaker JumpStart에서 자동 음성 인식을 위한 속삭임 모델을 사용할 수 있습니다 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.헤만트 싱 Amazon SageMaker JumpStart 경험이 있는 응용 과학자입니다. 그는 Courant Institute of Mathematical Sciences에서 석사학위를, IIT Delhi에서 B.Tech를 취득했습니다. 그는 자연어 처리, 컴퓨터 비전 및 시계열 분석 영역 내에서 다양한 기계 학습 문제를 해결한 경험이 있습니다.

이제 Amazon SageMaker JumpStart에서 자동 음성 인식을 위한 속삭임 모델을 사용할 수 있습니다 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.라크나 차다 AWS Strategic Accounts의 수석 솔루션 아키텍트 AI/ML입니다. Rachna는 AI의 윤리적이고 책임 있는 사용이 미래 사회를 개선하고 경제적, 사회적 번영을 가져올 수 있다고 믿는 낙관론자입니다. 여가 시간에 Rachna는 가족과 함께 시간을 보내고, 하이킹을 하고, 음악을 듣는 것을 좋아합니다.

이제 Amazon SageMaker JumpStart에서 자동 음성 인식을 위한 속삭임 모델을 사용할 수 있습니다 | Amazon Web Services PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.Ashish Khetan 박사 Amazon SageMaker 내장 알고리즘을 사용하는 수석 응용 과학자이며 기계 학습 알고리즘 개발을 돕습니다. 그는 University of Illinois Urbana-Champaign에서 박사 학위를 받았습니다. 그는 기계 학습 및 통계적 추론 분야에서 활동적인 연구원이며 NeurIPS, ICML, ICLR, JMLR, ACL 및 EMNLP 컨퍼런스에서 많은 논문을 발표했습니다.

타임 스탬프 :

더보기 AWS 기계 학습