マイクロソフトの新しい AI は、わずか 3 秒であなたの声を複製できます

プラトン再発行

フォロワー： 0

Microsoft の新しい AI はわずか 3 秒であなたの声をクローンできる PlatoBlockchain Data Intelligence。垂直検索。あい。

AIは、からすべてを生成するために使用されています画像〜へ 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다. 〜へ人工タンパク質、そして今、別のものがリストに追加されました: スピーチ. 先週の研究者マイクロソフトが論文を発表 VALL-Eと呼ばれる新しいAIで、わずかXNUMX秒のサンプルに基づいて誰の声も正確にシミュレートできます。 VALL-E は作成された最初のスピーチシミュレータではありませんが、以前のものとは異なる方法で構築されており、潜在的な誤用のリスクが高くなる可能性があります。

既存のテキスト読み上げモデルのほとんどは、波形 (時間をかけて媒体を通過する音波のグラフィック表現) を使用して偽の音声を作成し、トーンやピッチなどの特性を微調整して特定の音声に近づけます。しかし、VALL-E は誰かの声のサンプルを取り、それをトークンと呼ばれるコンポーネントに分解し、それらのトークンを使用して、この声について既に学習した「ルール」に基づいて新しいサウンドを作成します。声が特に低い場合、またはスピーカーが A を鼻にかけるような方法で発音する場合、または平均よりも単調である場合、これらはすべて AI が拾い上げて複製できる特性です。

モデルは、と呼ばれる技術に基づいています。メタによるエンコード、この部分は 10 月にリリースされたばかりです。このツールは 3 部構成のシステムを使用して、オーディオを MPXNUMX の XNUMX 分の XNUMX のサイズに圧縮し、品質を損なうことはありません。その作成者は、その用途の XNUMX つとして、低帯域幅接続で行われる通話の音声と音楽の品質を向上させることを意図していました。

VALL-E をトレーニングするために、その作成者は、と呼ばれるオーディオライブラリを使用しました。リブリライト、その 60,000 時間の英語のスピーチは、主にオーディオブックのナレーションで構成されています。このモデルは、合成される音声がトレーニングライブラリの音声の 7,000 つに似ている場合に最良の結果をもたらします (そのうちの XNUMX を超える音声は、多すぎないはずです)。

誰かの声を再現するだけでなく、VALL-E は XNUMX 秒間のサンプルからオーディオ環境をシミュレートします。電話で録音されたクリップは、実際に作成されたものとは異なるように聞こえます。話しているときに歩いたり運転したりしている場合は、それらのシナリオの固有の音響が考慮されます。

いくつかのサンプルかなり現実的に聞こえますが、他のものはまだ非常に明らかにコンピューターで生成されています。しかし、声には顕著な違いがあります。話し方、ピッチ、イントネーションのパターンが異なる人々に基づいていることがわかります。

VALL-E を作成したチームは、悪意のある人物によって非常に簡単に使用される可能性があることを知っています。政治家や有名人の噛みつきを偽造することから、聞き慣れた声を使って電話でお金や情報を要求することまで、このテクノロジーを活用する方法は無数にあります。彼らは賢明にも VALL-E のコードを公開することを控えており、論文の最後に倫理に関する声明を含めています (これは、AI を悪意のある目的で使用しようとする人を思いとどまらせることにはなりません)。

同様のツールが登場して悪者の手に渡るのも時間の問題でしょう。研究者は、VALL-E のようなモデルが提示するリスクは、オーディオクリップが本物か合成かを判断する検出モデルを構築することで軽減できる可能性があると示唆しています。 AI から私たちを守るために AI が必要な場合、これらのテクノロジーが正味のプラスの影響を与えているかどうかをどのように知ることができますか? 時が教えてくれる。

画像のクレジット： Shutterstock.com/タンチャ

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

タイムスタンプ： 2023 年 1 月 12 日

タイムスタンプ： 2024 年 2 月 17 日

マイクロソフトの新しい AI は、わずか 3 秒であなたの声を複製できます

プラトン再発行

より多くの特異点ハブ

遠方の銀河のヘリウムを測定すると、物理学者が宇宙が存在する理由について洞察が得られる可能性がある

生命の構成要素は原初の海のしぶきで形成された可能性があります

ウクライナの紛争により、世界は再生可能エネルギーで動いている、と IEA の報告書は述べています

CRISPR 遺伝子編集は画期的な年を迎えましたが、まだ始まったばかりです

動物の知覚の研究が知覚 AI の倫理的パズルの解決にどのように役立つか

地球の「日焼け止め」として月の塵を宇宙に発射すると、気候変動を食い止めることができる

Waymoの自動運転車がアリゾナ州の安全運転者不在の高速道路を走行中

この AI は、私たちのニーズに完全に合わせた複雑なタンパク質を設計できます

このゲイツが支援するスタートアップは、エネルギー効率の高いパネルからモジュラー住宅を建設します

NVIDIAの小さな新しいAIは、写真をわずか数秒で完全な3Dシーンに変換します

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの 特異点ハブ

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー

より多くの特異点ハブ