Новому «голосовому движку» от OpenAI требуется всего 15 секунд для клонирования речи – расшифровка

Новому «голосовому движку» от OpenAI требуется всего 15 секунд для клонирования речи – расшифровка

Новому «голосовому движку» от OpenAI требуется всего 15 секунд для клонирования речи — расшифровка данных PlatoBlockchain. Вертикальный поиск. Ай.

OpenAI, компания в области искусственного интеллекта, стоящая за доминирующим инструментом генеративного искусственного интеллекта ChatGPT, представила новую технологию клонирования голоса, которую она называет «Voice Engine». Эта аудиомодель может воспроизводить голос, интонацию и другие характерные для человека речевые модели на основе относительно небольшого образца исходного звука.

«Примечательно, что небольшая модель с одним 15-секундным семплом может создавать эмоциональные и реалистичные голоса», — говорится в сообщении компании. Пятничный пост в блоге.

Для сравнения, голосовая платформа AI Одиннадцать лабораторий имеет инструмент мгновенного клонирования голоса, который требуются образцы длительностью не менее одной минуты. Для достижения наилучших результатов для профессионального уровня обслуживания необходимо около 10 минут непрерывной речи.

Компания продемонстрировала разные примеры того, на что способна эта технология. В одном примере голос молодой пациентки, потерявшей большую часть способности говорить из-за сосудистой опухоли головного мозга, был клонирован с использованием старой записи, которую она сделала для школьного проекта. Это как она звучит сегодняПо данным OpenAI.

OpenAI работал с Продолжительность жизни, некоммерческой организации, связанной с медицинской школой Университета Брауна и создателей инструмента под названием Ливокс, «альтернативное приложение для общения», созданное для людей с ограниченными возможностями. Команда смогла работать с запись того, что женщина сделала для школьной презентации:

Затем Open AI Voice Engine смог обеспечить возможность мгновенного преобразования текста в речь, что позволило бы пациенту эффективно говорить своим голосом:

OpenAI также продемонстрировал, как ЭйГен использует свою технологию для создания естественно звучащих переводов речи, загруженной на определенный язык, на другой язык.

Компания заявляет, что Voice Engine был впервые разработан в конце 2022 года и уже используется для поддержки предустановленных голосов, доступных в API преобразования текста в речь OpenAI, а также функции ChatGPT Voice и Read Aloud. Учитывая последние достижения, компания заявляет, что проявляет осторожность перед более широким выпуском.

«Мы надеемся начать диалог об ответственном использовании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям», — написал OpenAI, признавая широко осуждаемую практику «дипфейков». Голоса знаменитостей, правительственных чиновников и все чаще частных лиц выдаются за других в гнусных целях. политических кампаний, поддельные объявления и прямо преступная деятельность. Президент США Джо Байден был толкая для получения дополнительных мер защиты от злонамеренного использования имитаций голоса ИИ.

Фактически, прошлым летом Meta сообщила, что запуск ее голосового инструмента искусственного интеллекта задерживается именно из-за «потенциальные риски неправильного использования".

«В соответствии с нашим подходом к безопасности ИИ и нашими добровольными обязательствами, мы предпочитаем в настоящее время предварительно просмотреть, но не широко выпускать эту технологию», — пояснил OpenAI.

Еще до публичного релиза OpenAI накладывает ограничения на Voice Engine, включая список выдающихся людей, которым он не будет подражать.

«Мы считаем, что любое широкое внедрение технологии синтетического голоса должно сопровождаться процедурами аутентификации голоса, которые проверяют, что исходный говорящий сознательно добавляет свой голос в услугу, и списком запрещенных голосов, который обнаруживает и предотвращает создание голосов, которые слишком похожи на выдающихся деятелей», — пишет OpenAI.

Партнеры, тестирующие сегодня Voice Engine, согласились с политикой использования OpenAI, которая запрещает выдавать себя за другое лицо или организацию без согласия. Кроме того, компания требует явного и осознанного согласия от первоначального говорящего и не позволяет разработчикам создавать способы клонирования собственных голосов отдельных пользователей.

«На основании этих разговоров и результатов небольших тестов мы примем более обоснованное решение о том, стоит ли и как развертывать эту технологию в больших масштабах», — говорится в сообщении в блоге.

Помимо Voice Engine, Open AI параллельно работает над несколькими проектами. Генеральный директор Сэм Альтман сообщил, что компания работает над выпуском GPT-5 в этом году. Компания также продемонстрировала свой инструмент для генерации видео. Сора. Компания утверждает, что Sora станет самым продвинутым видеогенератором на рынке, превзойдя такие модели, как Pika, Stable Video Diffusion и Runway ML.

В настоящее время Сора доступна только «красным командам», завербованным Open AI, чтобы гарантировать, что ею нельзя злоупотреблять.

Voice Engine, безусловно, может превзойти другие инструменты клонирования голоса, включая предложения от Meta, ElevenLabs, WellSaid Labs, а также модели с открытым исходным кодом, такие как РВК.

Open AI также работает над секретный проект под названием Q* из которых просочилось только название. Сэм Альтман отказался сообщить какие-либо подробности, но сказал, что исследовательская группа была сосредоточена на поиске методов и подходов, которые помогут ИИ лучше рассуждать.

Под редакцией Райан Одзава.

Будьте в курсе крипто-новостей, получайте ежедневные обновления на свой почтовый ящик.

Отметка времени:

Больше от Decrypt