人工知能 (AI) プログラムがどれほど強力になっているのか、お分かりいただけると思います。 彼らは偉人の芸術を模倣し、グローバル リーダー向けのスクリプトを作成しており、AI ツールの急速な拡大をめぐる世界的な会話を引き起こしています。
ごく最近、Microsoft は音声模倣のための AI を開発しました。 その効率と精度は画期的ですが、ユーザーはその目的と使用法に疑問を抱いています。 このツールはどのように機能し、どのようにして短時間で音声を複製するのでしょうか?
VALL-Eに会う
VALL-E は、XNUMX 秒以内に声を複製することを学習する AI です。 VALL-E は、テキスト読み上げ (TTS) プログラムの以前の反復が効率と音のニュアンスに苦労していたため、トレーニングが非常に迅速に行われた最初のプログラムの XNUMX つです。
「しかし、VALL-E はあらゆる点でこの研究の研究を改善し、トレーニング時間を短縮し、トーンやペーシングなどの複雑な声質の精度を高めます。」
VALL-E の目標の XNUMX つは、 以前の TTS プログラムではできませんでした、および試行は、現在のモデルのさまざまな結果を示しています。 信憑性を確保するために、このようなプログラムは人の声をコピーするだけでなく、録音デバイスの音質と背景環境の影響 (静電気やノイズなど) を再現する必要があります。 研究者はその複製品質に感銘を受け続けていますが、Microsoft は音色と感情に基づく抑揚をさらに改善することを目指しています。
VALL-E はまだ公開されていないため、大規模でどのように機能するかは不明です。 Microsoft は時間をかけて、適切な使用を確保するために公開前に改良しています。
VALL-E は最小限の音声サンプリングで動作するため、まとまりのある長いオーディオ クリップをどれだけうまく生成できるかは不明です。 AI と機械学習のデータセットには、考慮すべきほぼ無数のデータ ポイントがあります。 Microsoft がこのような小さな参照フレームで音声の複製を完成させれば、AI の未来への飛躍となります。
科学を知る
VALL-E は、既存の技術とうまく融合するため、その目的に成功しています。 たとえば、GPT-3 はまだ 言語処理モデルを使用 明確な制作と正確な編集のための TTS 生成機能を完成させます。 ただし、他のモデルはデータ セットを操作して新しいコンテンツを作成します。 VALL-Eはオリジナルコンテンツを制作しています。
Meta と協力して、Microsoft は EnCodec と LibriLight を使用して VALL-E に通知します。 EnCodec は、音声のわずかな変化さえも識別できる音声圧縮ニューラル ネットワークです。 LibriLight はオーディオ ライブラリです。 60,000 時間以上を含む さまざまな声からの英語を話すファイルの。
「これらの力により、VALL-E は XNUMX 秒間のオーディオ クリップを取得し、それを EnCodec が分析できるトークンに変換し、それをライブラリのデータに参照して、本物の音声の複製を生成することができます。 EnCodec は低ビットレートでファイルを生成するため、同種の他のモデルよりも生成が高速です。」
このようなシーケンスは、より自然に聞こえるオーディオ クリップを生成し、最も訓練された耳や音声認識技術でさえ騙すことができます。
これが産業を支援する可能性は計り知れません。 通信だけでなく、あらゆる分野でストレスを軽減しながら、効率と生産性を向上させることができます。 ただし、悪化する可能性は同じです デジタル空間での犯罪行為、他の結果とともに。
会話に参加する
ほとんどの AI の進歩と同様に、倫理的な懸念が生じます。 他のテキスト生成と同様に、AI はデータから機能します。したがって、盗作は常に考慮されます。 ただし、VALL-E 著作権フリーのソースを参照、したがって、これはまだ主な関心事ではありません。
ただし、Microsoft は、このようなテクノロジを敵対的な目的で使用する一般市民にも注意する必要があります。たとえば、偽のニュースを広めたり、おそらくは生きていない目撃者からの虚偽の証言で調査を混乱させたりすることです。 法律などの特定の業界は、新しいポリシーと構造を考案する必要があります。 ディープフェイクに遭遇する方法 法廷で。
「あらゆる技術の進歩と同様に、誤用は可能性が高いだけでなく、避けられません。」
創造的な財産や個人情報の盗難の脅威とは別に、熟練した音声生成 AI は、一部の職業の生計を脅かしたり、以前は工芸に専念した年に依存していた業界から芸術的および専門的な専門知識を取り除いたりする可能性があります。
声優、スピーチ ライター、カスタマー サービス担当者はすべて、AI の音声模倣によって時代遅れになる可能性があります。 この可能性は不明であり、迅速かつ包括的な方法ではおそらく不可能です。 考えられる結果は、音声模倣がこれらの産業を置き換えるのではなく、補完することです。 AI 音声生成は、アイデアの生成に役立つか、別のワーカーとして機能してタスクを委任し、人間のワーカーからオフロードすることができます。
音声複製 AI を使用して話し方を理解する
音声複製 AI に関する倫理的な懸念にもかかわらず、Microsoft は、一般の人々の使用方法に応じて、新世代向けの進歩的で機知に富んだツールを革新しています。 このツールの背後にある科学は最も革新的な側面であり、エンジニアや開発者に、あらゆる分野での将来のアプリケーションのために AI を拡張および変換する方法を知らせることができます。
VALL-E で実装されたテクノロジーは、業界の考え方の変化につながる可能性があります。 このプロジェクトの共同作業の性質により、AI のインタラクティブ性と開発が正確さと効率の新時代へと進みます。
また、読む 高品質のオーディオ分割のためのLalal.AI
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://www.aiiottalk.com/science-behind-microsofts-ai-voice/
- 000
- a
- 能力
- 精度
- 正確な
- 行為
- アクティビティ
- 進歩
- AI
- すべて
- 並んで
- 常に
- 量
- 分析します
- および
- 別の
- 人工の
- 人工知能
- 人工知能(AI)
- 芸術的
- 芸術
- 側面
- アシスト
- オーディオ
- 信頼性
- 利用できます
- 背景
- なぜなら
- になる
- 背後に
- できる
- 原因
- チャンス
- 変更
- クリア
- クリップ
- 環境、テクノロジーを推奨
- 共同
- 通信部
- 有能な
- 複雑な
- 包括的な
- 懸念
- 懸念事項
- 結果
- 考慮
- コンテンツ
- 会話
- 可能性
- クラフト
- 作ります
- クリエイティブ
- 電流プローブ
- 顧客
- 顧客サービス
- データ
- データポイント
- データセット
- データセット
- 専用の
- ディープフェイク
- によっては
- 細部
- 発展した
- 開発者
- 開発
- デジタル
- 効率
- エンジニア
- 確保
- 環境の
- 倫理的な
- さらに
- 例
- 既存の
- 詳細
- 拡大
- 専門知識
- 偽
- 偽のニュース
- 名
- FRAME
- から
- function
- さらに
- 未来
- 生成する
- 生成
- 世代
- 受け
- GitHubの
- グローバル
- 目標
- 画期的な
- 助けます
- 高品質
- 認定条件
- How To
- しかしながら
- HTTPS
- 人間
- アイデア
- アイデンティティ
- 実装
- 感銘を受けて
- 改善
- in
- 増える
- の増加
- 産業
- 産業を変えます
- 革新的
- を取得する必要がある者
- インテリジェンス
- 双方向性
- 調査
- IT
- 繰り返し
- 種類
- 言語
- より大きい
- 法律
- リーダー
- 学習
- 図書館
- 可能性が高い
- 生活
- より長いです
- ロー
- 機械
- 機械学習
- 作る
- Meta
- Microsoft
- 考え方
- 最小限の
- マイナー
- 混合
- モデル
- 他には?
- 最も
- 自然
- ほぼ
- net
- 新作
- ニュース
- ノイズ
- 廃止された
- ONE
- 動作
- オリジナル
- その他
- 完璧
- 実行する
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポイント
- ポリシー
- 可能性
- 可能
- 潜在的な
- 強力な
- 力
- 現在
- 前
- 前に
- 主要な
- 処理
- 生産
- 生産性
- プロ
- 演奏曲目
- プログラム
- 進捗
- プログレッシブ
- プロジェクト
- 適切な
- 財産
- 公共
- 公然と
- 目的
- 目的
- 資質
- 品質
- 質問
- クイック
- より速い
- 急速な
- 読む
- 最近
- 録音
- 縮小
- リリース
- 残る
- 削除します
- レプリケーション
- 代表
- 研究
- 研究者
- 機知に富んだ
- 結果
- 革新的な
- 秤
- 科学
- スクリプト
- 秒
- セクター
- セクター
- 求める
- シーケンス
- サービス
- セット
- シフト
- ショート
- 表示する
- 小さい
- So
- 一部
- 話す
- 特定の
- 広がる
- まだ
- ストレス
- 勉強
- 成功した
- そのような
- 周囲の
- 取る
- 取得
- タスク
- 技術の
- テクノロジー
- 条件
- テキストを音声に変換する
- 盗難
- アプリ環境に合わせて
- 自分自身
- したがって、
- 脅威
- 脅かす
- 三
- 時間
- 〜へ
- トークン
- TONE
- ツール
- 豊富なツール群
- トレーニング
- 訓練された
- トレーニング
- 最適化の適用
- 翻訳する
- 試験
- 不確かな
- わかる
- 使用法
- users
- さまざまな
- ボイス
- 声
- while
- 意志
- 以内
- ワーカー
- 労働者
- 作品
- 書き込み
- 年
- ゼファーネット