話者のダイアライゼーションは、音声分析に不可欠なプロセスであり、話者のアイデンティティに基づいて音声ファイルをセグメント化します。この投稿では、話者ダイアライゼーションのために Hugging Face の PyAnnote を統合する方法について詳しく説明します。 アマゾンセージメーカー 非同期エンドポイント。
AWS クラウド上で SageMaker を使用して話者のセグメンテーションとクラスタリングのソリューションをデプロイする方法に関する包括的なガイドを提供します。このソリューションは、マルチスピーカー (100 を超える) オーディオ録音を処理するアプリケーションに使用できます。
ソリューションの概要
Amazon Transcribe は、AWS の話者ダイアライゼーションの頼りになるサービスです。ただし、サポートされていない言語の場合は、推論のために SageMaker にデプロイされる他のモデル (この場合は PyAnnote) を使用できます。推論に最大 60 秒かかる短い音声ファイルの場合は、次のように使用できます。 リアルタイム推論。 60秒を超えると、 非同期 推論を使用する必要があります。非同期推論の追加の利点は、処理するリクエストがないときにインスタンス数をゼロに自動スケーリングすることでコストを節約できることです。
ハグ顔 は、機械学習 (ML) モデルの人気のあるオープンソース ハブです。 AWS とハグフェイスには、 パートナーシップ これにより、SageMaker を介して、PyTorch または TensorFlow でのトレーニングと推論のための AWS Deep Learning Containers (DLC) のセットと、SageMaker Python SDK の Hugging Face 推定器および予測器とのシームレスな統合が可能になります。 SageMaker の機能は、開発者やデータ サイエンティストが AWS で自然言語処理 (NLP) を簡単に開始できるように支援します。
このソリューションの統合には、Hugging Face の事前トレーニング済み話者ダイアライゼーション モデルの使用が含まれます。 PyAnnote ライブラリ。 PyAnnote は、Python で書かれた話者ダイアライゼーション用のオープンソース ツールキットです。このモデルはサンプル オーディオ データセットでトレーニングされており、オーディオ ファイル内で効果的な話者分割を可能にします。モデルは非同期エンドポイント設定として SageMaker にデプロイされ、日記タスクの効率的かつスケーラブルな処理を提供します。
次の図は、ソリューションのアーキテクチャを示しています。
この記事では、次の音声ファイルを使用します。
ステレオまたはマルチチャンネルのオーディオ ファイルは、チャンネルを平均化することによって自動的にモノラルにダウンミックスされます。異なるレートでサンプリングされたオーディオ ファイルは、ロード時に自動的に 16kHz にリサンプリングされます。
前提条件
次の前提条件を完了します。
- SageMaker ドメインを作成する.
- あなたのことを確認してください AWS IDおよびアクセス管理 (IAM) ユーザーには、 SageMaker の役割.
- AWS アカウントに、ml.g5.2xlarge インスタンスの SageMaker エンドポイントをホストするためのサービス クォータがあることを確認してください。
Hugging Face から PyAnnote 話者ダイアライゼーションにアクセスするためのモデル関数を作成する
Hugging Face Hub を使用して、必要な事前トレーニングされたものにアクセスできます。 PyAnnote 話者ダイアライゼーション モデル。 SageMaker エンドポイントを作成するときに、モデル ファイルをダウンロードするために同じスクリプトを使用します。
次のコードを参照してください。
モデルコードをパッケージ化する
推論コードを含む inference.py などの重要なファイルを準備します。
シミュレーションの準備 requirements.txt
ファイルには、推論を実行するために必要な Python ライブラリが含まれています。
最後に圧縮します inference.py
およびrequirements.txtファイルを作成し、次のように保存します。 model.tar.gz
:
SageMaker モデルを構成する
画像 URI、モデル データの場所を指定して SageMaker モデル リソースを定義します。 Amazon シンプル ストレージ サービス (S3)、および SageMaker ロール:
モデルを Amazon S3 にアップロードする
zip 圧縮された PyAnnote Hugging Face モデル ファイルを S3 バケットにアップロードします。
SageMaker 非同期エンドポイントを作成する
提供された非同期推論構成を使用して、SageMaker にモデルをデプロイするための非同期エンドポイントを構成します。
エンドポイントをテストする
ダイアライゼーション用の音声ファイルを送信し、指定された S3 出力パスに保存されている JSON 出力を取得することで、エンドポイントの機能を評価します。
このソリューションを大規模に展開するには、次を使用することをお勧めします。 AWSラムダ, Amazon シンプル通知サービス (Amazon SNS)、または Amazon シンプル キュー サービス (Amazon SQS)。これらのサービスは、スケーラビリティ、イベント駆動型アーキテクチャ、および効率的なリソース利用を目的として設計されています。これらは、非同期推論プロセスを結果処理から切り離すのに役立ち、各コンポーネントを個別にスケールし、推論リクエストのバーストをより効果的に処理できるようになります。
結果
モデル出力は次の場所に保存されます。 s3://sagemaker-xxxx /async_inference/output/.
出力には、オーディオ録音が 3 つの列に分割されていることが示されています。
- 開始 (開始時間 (秒))
- 終了 (秒単位の終了時間)
- スピーカー(スピーカーラベル)
次のコードは、結果の例を示しています。
クリーンアップ
MinCapacity を 0 に設定すると、スケーリング ポリシーをゼロに設定できます。 非同期推論 リクエストなしでゼロに自動スケールできます。エンドポイントを削除する必要はありません。 秤 再び必要になったときにゼロから再構築し、使用していないときのコストを削減します。次のコードを参照してください。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/deploy-a-hugging-face-pyannote-speaker-diarization-model-on-amazon-sagemaker-as-an-asynchronous-endpoint/
- :持っている
- :は
- :not
- :どこ
- $UP
- 1
- 10
- 100
- 11
- 118
- 12
- 13
- 14
- 16
- 17
- 23
- 25
- 視聴者の38%が
- 27
- 28
- 31
- 60
- 7
- 8
- 9
- a
- 私たちについて
- アクセス
- アクセス
- 収容する
- 越えて
- 加えます
- 追加されました
- 調整する
- 高度な
- 再び
- AI
- AIサービス
- AI / ML
- 許可
- ことができます
- また
- Amazon
- アマゾンセージメーカー
- Amazon Webサービス
- an
- 分析
- 分析論
- および
- どれか
- 申し込み
- アプローチ
- 建築
- アーキテクチャ
- です
- 周りに
- AS
- At
- 試み
- オーディオ
- オート
- 自動的に
- 平均化
- AWS
- ベース
- BE
- き
- 恩恵
- 利点
- の間に
- ビジネス
- ビジネス
- by
- 缶
- 機能
- 場合
- 例
- 変更
- チャンネル
- class
- クライアント
- クラウド
- クラスタリング
- コード
- コラム
- 注釈
- コマンドと
- コンポーネント
- 包括的な
- コンセプト
- 同時
- コンテナ
- 含まれています
- controls
- 費用
- コスト削減
- コスト
- カウント
- 作ります
- 作成
- Customers
- データ
- 取引
- 深いです
- 深い学習
- 定義します
- 配信する
- 探求する
- デモンストレーション
- 展開します
- 展開
- 展開する
- 設計
- 設計
- 希望
- 発展した
- Developer
- 開発者
- 開発
- ダイアグラム
- 異なります
- デジタル
- ディレクトリにジョブを開始します。
- ドキュメント
- ドント
- ダウンロード
- 動的に
- 各
- 緩和する
- 効果的な
- 効果的に
- 効率的な
- 効率良く
- 可能
- end
- エンドポイント
- エラー
- 本質的な
- 例
- 除く
- 体験
- 探る
- 顔
- 特徴
- File
- フォロー中
- 形式でアーカイブしたプロジェクトを保存します.
- から
- function
- 機能性
- 生々しい
- 取得する
- 受け
- GitHubの
- ガイド
- ハンドル
- 持ってる
- he
- 助けます
- 助けました
- ことができます
- 彼の
- ホスティング
- 認定条件
- How To
- しかしながら
- HTML
- HTTP
- HTTPS
- ハブ
- 抱き合う顔
- 何百
- アイデンティティ
- if
- 説明する
- 画像
- 実装
- import
- in
- 単独で
- インド
- 統合
- 統合
- に
- 関与
- IT
- 旅
- JPG
- JSON
- キー
- ラベル
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- 起動する
- 学習
- ことができます
- ライブラリ
- ような
- 負荷
- ローディング
- 場所
- より長いです
- 機械
- 機械学習
- 手段
- ML
- モデル
- 他には?
- の試合に
- ナチュラル
- 自然言語処理
- 必要
- 必要
- 必要とされる
- NLP
- いいえ
- なし
- 通知
- 数
- オブジェクト
- of
- オファー
- on
- 開いた
- オープンソース
- 最適化
- or
- OS
- その他
- 私たちの
- でる
- 出力
- が
- 全体
- 自分の
- パンダ
- 部
- path
- パーミッション
- パイプライン
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 方針
- 人気
- ポスト
- パワード
- 予測
- 前提条件
- プロセス
- 処理
- プロジェクト(実績作品)
- 証拠
- 提供します
- 提供
- は、大阪で
- 提供
- 公共
- 置きます
- Python
- パイトーチ
- 質問
- レート
- リーチ
- への
- 録音
- 軽減
- 縮小
- リファレンス
- 地域
- 登録
- 信頼性のある
- replace
- 表します
- リクエスト
- の提出が必要です
- 要件
- リソースを追加する。
- リソース
- 応答
- 結果
- 結果
- return
- 職種
- ラン
- ランニング
- セージメーカー
- セールス
- 同じ
- サンプル
- Save
- 貯蓄
- スケーラビリティ
- ド電源のデ
- 規模
- スケーリング
- 科学者たち
- スクリプト
- スクリプト
- SDDK
- シームレス
- シームレス
- 秒
- セクター
- セグメンテーション
- セグメント
- 送信
- 切り離す
- サービス
- サービス
- セッション
- セッション
- セッションに
- 設定
- いくつかの
- 形状
- ショート
- すべき
- 作品
- 簡単な拡張で
- ソフトウェア
- ソフトウェア開発
- 溶液
- ソリューション
- ソース
- スピーカー
- 専門家
- 特定の
- 指定の
- 指定する
- 支出
- split
- start
- 開始
- ストレージ利用料
- 保存され
- 簡単な
- 戦略的
- 成功
- 示唆する
- 確か
- 取り
- タスク
- テク
- テンソルフロー
- より
- それ
- そこ。
- ボーマン
- 彼ら
- この
- 数千
- 三
- 介して
- 時間
- 〜へ
- 今日
- ツールキット
- トピック
- トーチ
- 訓練された
- トレーニング
- 変換
- トランスフォーマー
- 試します
- 順番
- に
- つかいます
- 中古
- ユーザー
- 使用されます
- バリアント
- バージョン
- 動画
- W
- wait
- 欲しいです
- we
- ウェブ
- Webサービス
- いつ
- which
- 誰
- 意志
- ワーキング
- 書かれた
- 年
- You
- あなたの
- ゼファーネット
- ゼロ