AIは、からすべてを生成するために使用されています 画像 〜へ 클라우드 기반 AI/ML및 고성능 컴퓨팅을 통한 디지털 트윈의 기초 – Edward Hsu, Rescale CPO 많은 엔지니어링 중심 기업에게 클라우드는 R&D디지털 전환의 첫 단계일 뿐입니다. 클라우드 자원을 활용해 엔지니어링 팀의 제약을 해결하는 단계를 넘어, 시뮬레이션 운영을 통합하고 최적화하며, 궁극적으로는 모델 기반의 협업과 의사 결정을 지원하여 신제품을 결정할 때 데이터 기반 엔지니어링을 적용하고자 합니다. Rescale은 이러한 혁신을 돕기 위해 컴퓨팅 추천 엔진, 통합 데이터 패브릭, 메타데이터 관리 등을 개발하고 있습니다. 이번 자리를 빌려 비즈니스 경쟁력 제고를 위한 디지털 트윈 및 디지털 스레드 전략 개발 방법에 대한 인사이트를 나누고자 합니다. 〜へ 人工タンパク質、そして今、別のものがリストに追加されました: スピーチ. 先週の研究者 マイクロソフトが論文を発表 VALL-Eと呼ばれる新しいAIで、わずかXNUMX秒のサンプルに基づいて誰の声も正確にシミュレートできます。 VALL-E は作成された最初のスピーチ シミュレータではありませんが、以前のものとは異なる方法で構築されており、潜在的な誤用のリスクが高くなる可能性があります。
既存のテキスト読み上げモデルのほとんどは、波形 (時間をかけて媒体を通過する音波のグラフィック表現) を使用して偽の音声を作成し、トーンやピッチなどの特性を微調整して特定の音声に近づけます。 しかし、VALL-E は誰かの声のサンプルを取り、それをトークンと呼ばれるコンポーネントに分解し、それらのトークンを使用して、この声について既に学習した「ルール」に基づいて新しいサウンドを作成します。 声が特に低い場合、またはスピーカーが A を鼻にかけるような方法で発音する場合、または平均よりも単調である場合、これらはすべて AI が拾い上げて複製できる特性です。
モデルは、と呼ばれる技術に基づいています。 メタによるエンコード、この部分は 10 月にリリースされたばかりです。 このツールは 3 部構成のシステムを使用して、オーディオを MPXNUMX の XNUMX 分の XNUMX のサイズに圧縮し、品質を損なうことはありません。 その作成者は、その用途の XNUMX つとして、低帯域幅接続で行われる通話の音声と音楽の品質を向上させることを意図していました。
VALL-E をトレーニングするために、その作成者は、と呼ばれるオーディオ ライブラリを使用しました。 リブリライト、その 60,000 時間の英語のスピーチは、主にオーディオブックのナレーションで構成されています。 このモデルは、合成される音声がトレーニング ライブラリの音声の 7,000 つに似ている場合に最良の結果をもたらします (そのうちの XNUMX を超える音声は、多すぎないはずです)。
誰かの声を再現するだけでなく、VALL-E は XNUMX 秒間のサンプルからオーディオ環境をシミュレートします。 電話で録音されたクリップは、実際に作成されたものとは異なるように聞こえます。話しているときに歩いたり運転したりしている場合は、それらのシナリオの固有の音響が考慮されます。
いくつかの サンプル かなり現実的に聞こえますが、他のものはまだ非常に明らかにコンピューターで生成されています。 しかし、声には顕著な違いがあります。 話し方、ピッチ、イントネーションのパターンが異なる人々に基づいていることがわかります。
VALL-E を作成したチームは、悪意のある人物によって非常に簡単に使用される可能性があることを知っています。 政治家や有名人の噛みつきを偽造することから、聞き慣れた声を使って電話でお金や情報を要求することまで、このテクノロジーを活用する方法は無数にあります。 彼らは賢明にも VALL-E のコードを公開することを控えており、論文の最後に倫理に関する声明を含めています (これは、AI を悪意のある目的で使用しようとする人を思いとどまらせることにはなりません)。
同様のツールが登場して悪者の手に渡るのも時間の問題でしょう。 研究者は、VALL-E のようなモデルが提示するリスクは、オーディオ クリップが本物か合成かを判断する検出モデルを構築することで軽減できる可能性があると示唆しています。 AI から私たちを守るために AI が必要な場合、これらのテクノロジーが正味のプラスの影響を与えているかどうかをどのように知ることができますか? 時が教えてくれる。
画像のクレジット: Shutterstock.com/タンチャ
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- できる
- 私たちについて
- 正確にデジタル化
- 追加されました
- 利点
- AI
- すべて
- 既に
- &
- 別の
- 誰も
- オーディオ
- 利用できます
- 平均
- 悪い
- ベース
- さ
- BEST
- の間に
- 休憩
- 建物
- 内蔵
- 呼ばれます
- コール
- キャリー
- 有名人
- 特性
- クリップ
- コード
- コンポーネント
- コンピューターで生成
- Connections
- 可能性
- 作ります
- 作成した
- クリエイター
- クレジット
- 深いです
- 検出
- の違い
- 異なります
- ダウン
- 運転
- 簡単に
- 英語
- 環境
- 倫理
- すべてのもの
- 既存の
- かなり
- 偽
- 秋
- おなじみの
- 名
- から
- 生成する
- GitHubの
- 与えられた
- 大きい
- ハンド
- 持って
- HOURS
- 認定条件
- HTTPS
- 影響
- 改善
- in
- 含まれました
- 情報
- IT
- 知っている
- 姓
- 学んだ
- 図書館
- 可能性が高い
- リスト
- 長い
- 損失
- 製
- 作成
- 問題
- ミディアム
- モデル
- お金
- 他には?
- 音楽を聴く際のスピーカーとして
- 必要
- net
- 新作
- 10月
- ONE
- 注文
- その他
- 紙素材
- 部
- 特に
- パターン
- のワークプ
- 人
- 電話
- 選ぶ
- ピッチ
- ピッチ
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- 政治家
- 正の
- 潜在的な
- 現在
- 主に
- 守る
- 公然と
- 目的
- 品質
- リアル
- 現実的な
- 記録された
- リリース
- 要求
- 研究者
- 結果
- リスク
- リスク
- シナリオ
- 秒
- シャッター
- 同様の
- シミュレータ
- より小さい
- So
- 音
- スピーカー
- 話す
- スピーチ
- 春
- ステートメント
- まだ
- 取る
- 取り
- 会話
- チーム
- テクノロジー
- テクノロジー
- テキストを音声に変換する
- アプリ環境に合わせて
- もの
- 三
- 介して
- 時間
- <font style="vertical-align: inherit;">回数</font>
- 〜へ
- トークン
- TONE
- あまりに
- ツール
- 豊富なツール群
- トレーニング
- トレーニング
- 微調整
- ユニーク
- us
- つかいます
- ボイス
- 声
- ウォーキング
- 波浪
- 方法
- 週間
- かどうか
- which
- while
- 誰
- 意志
- でしょう
- 間違った
- 間違った手
- 収量
- You
- あなたの
- ゼファーネット