マイクロソフトの AI が 3 秒で人の声を真似る方法の背後にある科学

マイクロソフトの AI が 3 秒で人の声を真似る方法の背後にある科学

Microsoft の AI が 3 秒で人の声を模倣できる仕組みの背後にある科学 PlatoBlockchain データ インテリジェンス。垂直検索。あい。

人工知能 (AI) プログラムがどれほど強力になっているのか、お分かりいただけると思います。 彼らは偉人の芸術を模倣し、グローバル リーダー向けのスクリプトを作成しており、AI ツールの急速な拡大をめぐる世界的な会話を引き起こしています。

ごく最近、Microsoft は音声模倣のための AI を開発しました。 その効率と精度は画期的ですが、ユーザーはその目的と使用法に疑問を抱いています。 このツールはどのように機能し、どのようにして短時間で音声を複製するのでしょうか?

VALL-Eに会う

VALL-E は、XNUMX 秒以内に声を複製することを学習する AI です。 VALL-E は、テキスト読み上げ (TTS) プログラムの以前の反復が効率と音のニュアンスに苦労していたため、トレーニングが非常に迅速に行われた最初のプログラムの XNUMX つです。 

「しかし、VALL-E はあらゆる点でこの研究の研究を改善し、トレーニング時間を短縮し、トーンやペーシングなどの複雑な声質の精度を高めます。」 

VALL-E の目標の XNUMX つは、 以前の TTS プログラムではできませんでした、および試行は、現在のモデルのさまざまな結果を示しています。 信憑性を確保するために、このようなプログラムは人の声をコピーするだけでなく、録音デバイスの音質と背景環境の影響 (静電気やノイズなど) を再現する必要があります。 研究者はその複製品質に感銘を受け続けていますが、Microsoft は音色と感情に基づく抑揚をさらに改善することを目指しています。

VALL-E はまだ公開されていないため、大規模でどのように機能するかは不明です。 Microsoft は時間をかけて、適切な使用を確保するために公開前に改良しています。 

VALL-E は最小限の音声サンプリングで動作するため、まとまりのある長いオーディオ クリップをどれだけうまく生成できるかは不明です。 AI と機械学習のデータセットには、考慮すべきほぼ無数のデータ ポイントがあります。 Microsoft がこのような小さな参照フレームで音声の複製を完成させれば、AI の未来への飛躍となります。 

科学を知る

VALL-E は、既存の技術とうまく融合するため、その目的に成功しています。 たとえば、GPT-3 はまだ 言語処理モデルを使用 明確な制作と正確な編集のための TTS 生成機能を完成させます。 ただし、他のモデルはデータ セットを操作して新しいコンテンツを作成します。 VALL-Eはオリジナルコンテンツを制作しています。

Meta と協力して、Microsoft は EnCodec と LibriLight を使用して VALL-E に通知します。 EnCodec は、音声のわずかな変化さえも識別できる音声圧縮ニューラル ネットワークです。 LibriLight はオーディオ ライブラリです。 60,000 時間以上を含む さまざまな声からの英語を話すファイルの。 

「これらの力により、VALL-E は XNUMX 秒間のオーディオ クリップを取得し、それを EnCodec が分析できるトークンに変換し、それをライブラリのデータに参照して、本物の音声の複製を生成することができます。 EnCodec は低ビットレートでファイルを生成するため、同種の他のモデルよりも生成が高速です。」 

このようなシーケンスは、より自然に聞こえるオーディオ クリップを生成し、最も訓練された耳や音声認識技術でさえ騙すことができます。

これが産業を支援する可能性は計り知れません。 通信だけでなく、あらゆる分野でストレスを軽減しながら、効率と生産性を向上させることができます。 ただし、悪化する可能性は同じです デジタル空間での犯罪行為、他の結果とともに。

会話に参加する

ほとんどの AI の進歩と同様に、倫理的な懸念が生じます。 他のテキスト生成と同様に、AI はデータから機能します。したがって、盗作は常に考慮されます。 ただし、VALL-E 著作権フリーのソースを参照、したがって、これはまだ主な関心事ではありません。

ただし、Microsoft は、このようなテクノロジを敵対的な目的で使用する一般市民にも注意する必要があります。たとえば、偽のニュースを広めたり、おそらくは生きていない目撃者からの虚偽の証言で調査を混乱させたりすることです。 法律などの特定の業界は、新しいポリシーと構造を考案する必要があります。 ディープフェイクに遭遇する方法 法廷で。

「あらゆる技術の進歩と同様に、誤用は可能性が高いだけでなく、避けられません。」 

創造的な財産や個人情報の盗難の脅威とは別に、熟練​​した音声生成 AI は、一部の職業の生計を脅かしたり、以前は工芸に専念した年に依存していた業界から芸術的および専門的な専門知識を取り除いたりする可能性があります。

声優、スピーチ ライター、カスタマー サービス担当者はすべて、AI の音声模倣によって時代遅れになる可能性があります。 この可能性は不明であり、迅速かつ包括的な方法ではおそらく不可能です。 考えられる結果は、音声模倣がこれらの産業を置き換えるのではなく、補完することです。 AI 音声生成は、アイデアの生成に役立つか、別のワーカーとして機能してタスクを委任し、人間のワーカーからオフロードすることができます。

音声複製 AI を使用して話し方を理解する

音声複製 AI に関する倫理的な懸念にもかかわらず、Microsoft は、一般の人々の使用方法に応じて、新世代向けの進歩的で機知に富んだツールを革新しています。 このツールの背後にある科学は最も革新的な側面であり、エンジニアや開発者に、あらゆる分野での将来のアプリケーションのために AI を拡張および変換する方法を知らせることができます。 

VALL-E で実装されたテクノロジーは、業界の考え方の変化につながる可能性があります。 このプロジェクトの共同作業の性質により、AI のインタラクティブ性と開発が正確さと効率の新時代へと進みます。

また、読む 高品質のオーディオ分割のためのLalal.AI 

タイムスタンプ:

より多くの AIIOTテクノロジー