OpenAI の新しい「音声エンジン」はたった 15 秒で音声のクローンを作成 - 復号化

OpenAI の新しい「音声エンジン」で音声のクローン作成に必要な時間はわずか 15 秒 – 復号化

OpenAI の新しい「音声エンジン」は音声のクローンを作成するのにわずか 15 秒しかかかりません - PlatoBlockchain データ インテリジェンスの復号化。垂直検索。あい。

有力な生成 AI ツール ChatGPT を開発する AI 企業である OpenAI は、「Voice Engine」と呼ぶ新しい音声クローン技術を発表しました。このオーディオ モデルは、元のオーディオの比較的小さなサンプルに基づいて、人の声、イントネーション、その他の明らかに人間の音声パターンを複製できます。

「単一の 15 秒サンプルを含む小さなモデルが、感情的で現実的な音声を作成できることは注目に値します」と同社は記事で述べています。 金曜日のブログ投稿.

比較のため、AI音声プラットフォーム イレブンラボ インスタント音声クローン作成ツールを備えています。 少なくとも 1 分間のサンプルが必要です。最良の結果を得るには、プロフェッショナル サービス レベルで 10 分近くの連続音声が必要です。

同社は、このテクノロジーで何ができるかをさまざまな例で示しました。ある例では、血管性脳腫瘍により話す能力の多くを失った若い患者の声が、学校のプロジェクトのために彼女が作成した古い録音を使用してクローン化されました。これは 今日の彼女の声はどうだろう、OpenAIによると。

OpenAIが協力した 寿命、ブラウン大学医学部と提携する非営利団体であり、と呼ばれるツールの作成者 リボックス、障害のある人のために作られた「代替コミュニケーションアプリ」。チームは協力することができました 女性が作った録音 学校のプレゼンテーションの場合:

Open AI Voice Engine は、患者が効果的に会話できる即時テキスト読み上げ機能を提供できるようになりました。 彼女自身の声で話す:

OpenAI はまた、その方法を紹介しました ヘイジェネ は、そのテクノロジーを使用して、特定の言語でアップロードされた音声の自然な響きの翻訳を別の言語で生成しています。

同社によると、Voice Engineは2022年後半に初めて開発され、すでにOpenAIのテキスト読み上げAPIやChatGPTの音声および読み上げ機能で利用可能なプリセット音声を強化するために使用されているという。最新の進歩を受けて、同社は広範なリリースの前に慎重になっていると述べている。

「私たちは、合成音声の責任ある展開と、社会がこれらの新しい機能にどのように適応できるかについて対話を開始したいと考えています」とOpenAIは書いており、広く非難されている「ディープフェイク」の慣行を認めている。有名人、政府関係者、そしてますます多くの民間人の声が、悪意のある目的でなりすまされています。 政治的キャンペーン, 偽の広告 そしてあからさまに 犯罪行為。ジョー・バイデン米国大統領は、 AI 音声なりすましの悪意のある使用に対する保護を強化します。

実際、Meta は昨年の夏、自社の AI 音声ツールが特に「誤用の潜在的なリスクに設立された地域オフィスに加えて、さらにローカルカスタマーサポートを提供できるようになります。」

「AIの安全性に対する当社のアプローチと自主的な取り組みに沿って、現時点ではこのテクノロジーをプレビューすることを選択しましたが、広くリリースすることはしませんでした」とOpenAIは説明した。

OpenAI は、公開リリース前であっても、エミュレートしない著名人のリストなど、Voice Engine に制限を設けています。

「私たちは、合成音声テクノロジーの広範な展開には、元の話者が故意に自分の声をサービスに追加していることを検証する音声認証エクスペリエンスと、過度に不適切な音声の作成を検出して防止する禁止音声リストを伴うべきだと考えています。著名な人物に似ている」とOpenAIは書いている。

本日、Voice Engine をテストしているパートナーは、同意なしに他の個人または組織になりすますことを禁止する OpenAI の使用ポリシーに同意しました。さらに、同社は元の話者からの明示的なインフォームドコンセントを要求しており、開発者が個々のユーザーが自分の声を複製する方法を構築することを許可していません。

「これらの会話と小規模テストの結果に基づいて、このテクノロジーを大規模に導入するかどうか、またその方法について、より多くの情報に基づいた決定を下していきます」とブログ投稿には書かれています。

Voice Engine に加えて、Open AI は複数のプロジェクトに並行して取り組んでいます。 CEOのサム・アルトマン氏が明らかにした。 今年 GPT-5 のリリースに取り組んでいます。同社はビデオ生成ツールも披露した ソーラ。同社は、Sora が市場で最も先進的なビデオ ジェネレーターとなり、Pika、Stable Video Diffusion、Runway ML などのモデルを超えると主張しています。

現在、Sora を利用できるのは、悪用されないように Open AI によって協力された「レッド チーマー」だけです。

Voice Engine は、Meta、Celebrities、WellSaid Labs の製品や、 RVC.

オープン AI も取り組んでいます。 Q*という名の秘密プロジェクト その名前だけがリークされています。サム・アルトマン氏は詳細を明らかにすることを拒否したが、研究チームはAIの推論をより良くする技術やアプローチを見つけることに重点を置いていると述べた。

による編集 ライアン・オザワ.

暗号ニュースを常に把握し、受信トレイで毎日更新を入手してください。

タイムスタンプ:

より多くの 解読する