Amazon Transcribe は、アプリケーションに音声をテキストに変換する機能を簡単に追加できるようにする、フルマネージドの自動音声認識 (ASR) サービスです。 本日、自動音声認識をさらに拡張する、数十億パラメータの音声基盤モデルを活用した次世代システムを発表できることを嬉しく思います。 100言語。 この投稿では、このシステムの利点のいくつか、企業によるこのシステムの使用方法、開始方法について説明します。 以下に文字起こし出力の例も示します。
Transcribe の音声基礎モデルは、クラス最高の自己教師ありアルゴリズムを使用してトレーニングされ、言語やアクセントを超えて人間の音声に固有の普遍的なパターンを学習します。 100 を超える言語からの数百万時間のラベルなし音声データに基づいてトレーニングされています。 トレーニング レシピはスマート データ サンプリングを通じて最適化され、言語間でトレーニング データのバランスがとれ、従来過小評価されてきた言語も確実に高い精度レベルに到達します。
Carbyne は、緊急通報対応者向けのクラウドベースのミッションクリティカルなコンタクト センター ソリューションを開発するソフトウェア会社です。 カービンの使命は、緊急対応隊員が命を救うことを支援することであり、言語が彼らの目標の邪魔になることはできません。 ここでは、Amazon Transcribe を使用して使命を追求する方法を示します。
「AI を活用した Carbyne Live Audio Translation は、年間最大 68 万人の外国人観光客に加え、家庭で英語以外の言語を話す 79 万人のアメリカ人に対する緊急対応の向上を直接の目的としています。 ASR を活用した Amazon Transcribe の新しい多言語基盤モデルを活用することで、Carbyne は人命救助の緊急サービスを民主化するための装備がさらに強化されます。 人。 カウントします。」
– アレックス・ディゼンゴフ氏、Carbyne の共同創設者兼 CTO。
Amazon Transcribe は音声基盤モデルを活用することで、ほとんどの言語で 20% から 50% の大幅な精度向上を実現します。 困難でデータが不足している分野である電話音声では、精度が 30% ~ 70% 向上しました。 この大規模な ASR モデルでは、大幅な精度の向上に加えて、より正確な句読点と大文字の使用により可読性も向上します。 生成 AI の出現により、何千もの企業が Amazon Transcribe を使用して音声コンテンツから豊富な洞察を引き出しています。 精度が大幅に向上し、100 を超える言語をサポートする Amazon Transcribe は、そのようなすべてのユースケースにプラスの影響を与えます。 Amazon Transcribe をバッチモードで使用する既存および新規のすべての顧客は、API エンドポイントや入力パラメータを変更することなく、音声基盤モデルを利用した音声認識にアクセスできます。
新しい ASR システムは、使いやすさ、カスタマイズ、ユーザーの安全性、プライバシーに関連するいくつかの重要な機能を 100 以上の言語すべてに提供します。 これには、自動句読点、カスタム語彙、自動言語識別、話者ダイアリゼーション、単語レベルの信頼スコア、カスタム語彙フィルタなどの機能が含まれます。 このシステムでは、さまざまなアクセント、騒音環境、音響条件に対するサポートが拡張されているため、より正確な出力を生成できるため、アプリケーションに音声テクノロジーを効果的に組み込むことができます。
さまざまなアクセントや騒音条件における Amazon Transcribe の高精度、多数の言語のサポート、および幅広い付加価値機能セットによって可能になり、数千の企業は次のことを行うことができます。 オーディオ コンテンツから豊富な洞察を引き出すだけでなく、さまざまなドメインにわたるオーディオおよびビデオ コンテンツのアクセスしやすさと発見しやすさを高めます。 たとえば、コンタクト センターは顧客の通話を文字に起こして分析し、洞察を特定し、顧客エクスペリエンスとエージェントの生産性を向上させます。 コンテンツプロデューサーとメディアディストリビューターは、Amazon Transcribe を使用して字幕を自動的に生成し、コンテンツのアクセシビリティを向上させます。
Amazon Transcribe を使ってみる
あなたが使用することができます AWSコマンドラインインターフェイス (AWS CLI)、 AWSマネジメントコンソール、および様々な AWSSDK バッチ転写に使用し、引き続き同じものを使用します StartTranscriptionJob
ユーザー側でコードやパラメーターを変更する必要なく、拡張された ASR モデルからパフォーマンス上の利点を得る API。 AWS CLI とコンソールの使用の詳細については、を参照してください。 AWS CLI を使用した文字起こし および AWS マネジメントコンソールを使用した文字起こしそれぞれ。
最初のステップは、メディア ファイルを Amazon シンプル ストレージ サービス (Amazon S3) バケット。任意の量のデータをどこからでも保存および取得できるように構築されたオブジェクト ストレージ サービスです。 Amazon S3 は、業界をリードする耐久性、可用性、パフォーマンス、セキュリティ、および事実上無制限のスケーラビリティを非常に低コストで提供します。 トランスクリプトを独自の S3 バケットに保存するか、Amazon Transcribe に安全なデフォルト バケットを使用させるかを選択できます。 S3 バケットの使用の詳細については、を参照してください。 Amazon S3 バケットの作成、設定、および操作.
文字起こし出力
Amazon Transcribe は出力に JSON 表現を使用します。 文字起こし結果は、テキスト形式と箇条書き形式の XNUMX つの異なる形式で提供されます。 API エンドポイントや入力パラメーターに関しては何も変わりません。
テキスト形式ではトランスクリプトがテキストのブロックとして提供されますが、項目別形式では、タイムリーに順序付けされた文字起こしされたアイテムの形式でトランスクリプトが、アイテムごとの追加のメタデータとともに提供されます。 両方の形式が出力ファイル内に並行して存在します。
文字起こしジョブの作成時に選択した機能に応じて、Amazon Transcribe は文字起こし結果の追加の充実したビューを作成します。 次のコード例を参照してください。
見解は次のとおりです。
- トランスクリプト – 代表者
transcripts
要素には、トランスクリプトのテキスト形式のみが含まれます。 マルチスピーカー、マルチチャンネルのシナリオでは、すべてのトランスクリプトの連結が単一のブロックとして提供されます。 - スピーカー – 代表者
speaker_labels
要素には、話者ごとにグループ化されたトランスクリプトのテキストと箇条書き形式が含まれます。 マルチスピーカー機能が有効になっている場合にのみ使用できます。 - チャンネル – 代表者
channel_labels
要素には、チャネルごとにグループ化されたトランスクリプトのテキストと項目化された形式が含まれます。 マルチチャンネル機能が有効な場合にのみ使用できます。 - アイテム – 代表者
items
要素には、トランスクリプトの項目別形式のみが含まれます。 マルチスピーカー、マルチチャンネルのシナリオでは、アイテムはスピーカーとチャンネルを示す追加のプロパティで強化されます。 - セグメント – 代表者
segments
要素には、代替転写ごとにグループ化された転写のテキストと項目化された形式が含まれます。 これは、代替結果機能が有効になっている場合にのみ使用できます。
まとめ
AWS では、お客様に代わって常に革新を行っています。 Amazon Transcribe の言語サポートを 100 以上の言語に拡張することで、お客様はさまざまな言語的背景を持つユーザーにサービスを提供できるようになります。 これにより、アクセシビリティが向上するだけでなく、地球規模でのコミュニケーションと情報交換の新たな道が開かれます。 この投稿で説明した機能の詳細については、以下を確認してください。 機能ページ および 新しい投稿は何ですか.
著者について
スミットクマール AWS AI Language Services チームのテクニカル担当プリンシパルプロダクトマネージャーです。 彼はさまざまな分野にわたる 10 年の製品管理の経験があり、AI/ML に情熱を持っています。 仕事以外では、スミットは旅行が大好きで、クリケットやローンテニスを楽しんでいます。
Vivek Singh AWS AI Language Services チームの製品管理担当シニアマネージャーです。 彼は Amazon Transcribe 製品チームを率いています。 AWS に入社する前は、消費者決済や小売など、他のさまざまな Amazon 組織で製品管理の役割を担っていました。 Vivek はワシントン州シアトルに住んでおり、ランニングとハイキングを楽しんでいます。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- PlatoData.Network 垂直生成 Ai。 自分自身に力を与えましょう。 こちらからアクセスしてください。
- プラトアイストリーム。 Web3 インテリジェンス。 知識増幅。 こちらからアクセスしてください。
- プラトンESG。 カーボン、 クリーンテック、 エネルギー、 環境、 太陽、 廃棄物管理。 こちらからアクセスしてください。
- プラトンヘルス。 バイオテクノロジーと臨床試験のインテリジェンス。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/amazon-transcribe-announces-a-new-speech-foundation-model-powered-asr-system-that-expands-support-to-over-100-languages/
- :持っている
- :は
- :not
- $UP
- 10
- 100
- 14
- 24
- 7
- a
- 私たちについて
- アクセス
- 接近性
- 精度
- 正確な
- 越えて
- 加えます
- 添加
- NEW
- 出現
- エージェント
- AI
- AI / ML
- 目的としました
- アレックス
- アルゴリズム
- すべて
- 沿って
- また
- 代替案
- Amazon
- Amazon Transcribe
- Amazon Webサービス
- アメリカ人
- 量
- an
- 分析します
- および
- アナウンス
- 発表
- 年単位
- どれか
- どこにでも
- API
- です
- AS
- At
- オーディオ
- オートマチック
- 自動的に
- 賃貸条件の詳細・契約費用のお見積り等について
- 利用できます
- 通り
- AWS
- 背景
- BE
- なぜなら
- 代わって
- 以下
- 利点
- より良いです
- の間に
- ブロック
- 両言語で
- 幅
- 内蔵
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- コール
- コール
- 缶
- 機能
- 大文字
- 例
- センター
- センター
- 挑戦
- 変化する
- 変更
- チャネル
- チャンネル
- チェック
- 選択する
- 共同創設者
- コード
- コミュニケーション
- 企業
- 会社
- 記入済みの
- 条件
- 信頼
- 構成する
- 領事
- 絶えず
- consumer
- 接触
- コンタクトセンター
- 含まれています
- コンテンツ
- 続ける
- 費用
- 国
- 作成します。
- 作成
- クリケット
- CTO
- カスタム
- 顧客
- 顧客満足体験
- Customers
- カスタム化
- データ
- デフォルト
- 提供します
- 民主化する
- 開発
- 異なります
- 直接に
- 話し合います
- 議論する
- ディストリビューター
- 異なる
- ドメイン
- ドメイン
- 耐久性
- 緩和する
- 使いやすさ
- 効果的に
- どちら
- 素子
- 埋め込みます
- 緊急事態
- 権限を与え
- enable
- 使用可能
- 可能
- end
- エンドポイント
- 英語
- 強化された
- 強化
- 豊かな
- 確保する
- 企業
- 環境
- 装備
- さらに
- あらゆる
- 例
- 交換
- 存在する
- 既存の
- 拡大
- 拡大する
- 体験
- 延伸
- 特徴
- 特徴
- File
- filter
- 名
- フォロー中
- 次
- 外国の
- フォーム
- 形式でアーカイブしたプロジェクトを保存します.
- Foundation
- から
- 完全に
- 生成する
- 生々しい
- 生成AI
- 取得する
- グローバル
- 地球規模
- 目標
- ハッピー
- 持ってる
- he
- ヒーロー
- 助けます
- 助け
- ことができます
- こちら
- hi
- ハイ
- ホーム
- HOURS
- 認定条件
- How To
- HTML
- HTTP
- HTTPS
- 人間
- 識別
- 識別する
- 影響
- 改善します
- 改善されました
- 改善
- 改善
- in
- include
- 増える
- 業界をリードする
- 情報
- 固有の
- 革新的
- 洞察
- に
- IT
- リーディングシート
- ITS
- ジョブ
- 参加
- JPG
- JSON
- キー
- 言語
- ESL, ビジネスESL <br> 中国語/フランス語、その他
- 大
- リード
- LEARN
- レベル
- 活用
- LINE
- ライブ
- 命
- で
- ロー
- make
- 作る
- マネージド
- 管理
- マネージャー
- メディア
- 百万
- 何百万
- ミッション
- モード
- 他には?
- 最も
- 必要
- 新作
- 次世代
- ノイズ
- 何も
- 数
- オブジェクト
- of
- オファー
- on
- の
- 開きます
- 最適化
- or
- 組織
- その他
- 私たちの
- でる
- 出力
- outputs
- 外側
- が
- 自分の
- 並列シミュレーションの設定
- パラメーター
- パラメータ
- 情熱的な
- パターン
- 支払い
- 以下のために
- パフォーマンス
- 人
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 再生
- 積極的に
- ポスト
- パワード
- 校長
- 事前の
- プライバシー
- 作り出す
- 生産者
- プロダクト
- 製品管理
- プロダクトマネージャー
- 生産性
- プロパティ
- 提供します
- 提供
- は、大阪で
- 追求する
- リーチ
- 認識
- 参照する
- 関連する
- 表現
- で表さ
- 尊重
- それぞれ
- 応答
- 結果
- 結果
- 小売
- 富裕層
- 役割
- ランニング
- 安全性
- 同じ
- Save
- スケーラビリティ
- 規模
- シナリオ
- シアトル
- 安全に
- セキュリティ
- セグメント
- select
- シニア
- 役立つ
- サービス
- サービス
- セット
- いくつかの
- 重要
- 著しく
- 簡単な拡張で
- スマート
- ソフトウェア
- ソリューション
- 一部
- 話す
- スピーカー
- スピーカー
- スピーチ
- 音声認識
- 音声テキスト
- 開始
- Status:
- 手順
- ストレージ利用料
- 店舗
- 簡単な
- 続いて
- かなりの
- サブタイトル
- そのような
- サポート
- チーム
- 技術的
- テクノロジー
- 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다.
- より
- それ
- アプリ環境に合わせて
- それによって
- ボーマン
- 彼ら
- この
- 数千
- 介して
- タイムリーな
- 〜へ
- 今日
- 伝統的に
- 訓練された
- トレーニング
- 成績証明書(トランスクリプト)
- インタビュー
- 旅行
- 2
- ユニバーサル
- 無限の
- アンロック
- つかいます
- ユーザー
- users
- 使用されます
- 多様
- さまざまな
- 非常に
- ビデオ
- ビュー
- 事実上
- 訪問者
- ボイス
- 仕方..
- we
- ウェブ
- Webサービス
- 歓迎
- WELL
- いつ
- 一方
- which
- 誰
- 意志
- 無し
- 仕事
- ワーキング
- 年
- You
- あなたの
- ゼファーネット