ИИ используется для создания всего из изображений в текст в искусственные белки, а теперь к списку добавилось еще одно: речь. На прошлой неделе исследователи из Microsoft выпустила документ на новом ИИ под названием VALL-E, который может точно имитировать любой голос на основе образца продолжительностью всего три секунды. VALL-E — не первый созданный симулятор речи, но он построен иначе, чем его предшественники, и может нести больший риск потенциального неправильного использования.
В большинстве существующих моделей преобразования текста в речь используются волновые формы (графическое представление звуковых волн по мере их прохождения через среду с течением времени) для создания искусственных голосов, настраивая такие характеристики, как тон или высота тона, для приближения к заданному голосу. VALL-E, тем не менее, берет образец чьего-то голоса и разбивает его на компоненты, называемые токенами, а затем использует эти токены для создания новых звуков на основе «правил», которые он уже узнал об этом голосе. Если голос особенно низкий, или говорящий произносит буквы «А» гнусаво, или он более монотонный, чем обычно, — все эти черты ИИ уловит и сможет воспроизвести.
Модель основана на технологии, называемой Кодек от Meta, который только что вышел в этой части в октябре. Инструмент использует трехчастную систему для сжатия звука до размера, в 10 раз меньшего, чем MP3, без потери качества; его создатели хотели, чтобы одним из его применений было улучшение качества голоса и музыки при звонках, совершаемых через соединения с низкой пропускной способностью.
Для обучения ВАЛЛ-И его создатели использовали аудиотеку под названием ЛибриСвет, чьи 60,000 7,000 часов английской речи в основном состоят из аудиокниг. Модель дает наилучшие результаты, когда синтезируемый голос похож на один из голосов из обучающей библиотеки (которых более XNUMX, так что порядок не должен быть слишком высоким).
Помимо воссоздания чьего-то голоса, VALL-E также имитирует звуковую среду из трехсекундного семпла. Клип, записанный по телефону, будет звучать иначе, чем сделанный лично, и если вы идете или ведете машину во время разговора, учитывается уникальная акустика этих сценариев.
Некоторые из образцы звучат довольно реалистично, в то время как другие явно сгенерированы компьютером. Но есть заметные различия между голосами; вы можете сказать, что они основаны на людях, которые имеют разные стили речи, высоту звука и интонационные модели.
Команда, создавшая ВАЛЛ-И, знает, что ее могут очень легко использовать плохие актеры; от подделки звуковых фрагментов политиков или знаменитостей до использования знакомых голосов для запроса денег или информации по телефону — существует бесчисленное множество способов воспользоваться преимуществами этой технологии. Они мудро воздержались от публичного доступа к коду VALL-E и включили этическое заявление в конец своей статьи (которое не сильно удержит любого, кто хочет использовать ИИ в гнусных целях).
Скорее всего, это всего лишь вопрос времени, когда подобные инструменты появятся и попадут не в те руки. Исследователи предполагают, что риски, которые будут представлять такие модели, как VALL-E, можно снизить, создав модели обнаружения, чтобы определить, являются ли аудиоклипы реальными или синтезированными. Если нам нужен ИИ для защиты от ИИ, как узнать, оказывают ли эти технологии положительное влияние? Время покажет.
Изображение Фото: Shutterstock.com/Танча
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- в состоянии
- О нас
- Учетная запись
- точно
- добавленный
- плюс
- AI
- Все
- уже
- и
- Другой
- кто угодно
- аудио
- доступен
- в среднем
- Плохой
- основанный
- до
- не являетесь
- ЛУЧШЕЕ
- между
- брейки
- Строительство
- построенный
- под названием
- Объявления
- нести
- знаменитости
- характеристика
- клипсы
- код
- компоненты
- генерируемые компьютером
- Коммутация
- может
- Создайте
- создали
- Создатели
- кредит
- глубоко
- обнаружение
- Различия
- различный
- вниз
- вождение
- легко
- Английский
- Окружающая среда
- этика
- многое
- существующий
- достаточно
- не настоящие
- Осень
- знакомый
- First
- от
- порождать
- GitHub
- данный
- большой
- Руки
- имеющий
- ЧАСЫ
- Как
- HTTPS
- Влияние
- улучшение
- in
- включены
- информация
- IT
- Знать
- Фамилия
- узнали
- Библиотека
- Вероятно
- Список
- Длинное
- от
- сделанный
- Создание
- Вопрос
- средний
- модель
- Модели
- деньги
- БОЛЕЕ
- двигаться
- Музыка
- Необходимость
- сеть
- Новые
- октябрь
- ONE
- заказ
- Другое
- бумага & картон
- часть
- особенно
- паттеранами
- Люди
- человек
- Телефон
- выбирать
- Pitch
- смолы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Политикам
- положительный
- потенциал
- представить
- в первую очередь
- для защиты
- публично
- целей
- реальные
- реалистичный
- записанный
- выпустил
- запросить
- исследователи
- Итоги
- Снижение
- рисках,
- Сценарии
- секунды
- Shutterstock
- аналогичный
- имитатор
- меньше
- So
- Звук
- Динамик
- Говоря
- речь
- весна
- заявление
- По-прежнему
- система
- взять
- принимает
- говорить
- команда
- технологии
- Технологии
- Преобразование текста в речь
- Ассоциация
- их
- задача
- три
- Через
- время
- раз
- в
- Лексемы
- TONE
- слишком
- инструментом
- инструменты
- Train
- Обучение
- доводка
- созданного
- us
- использование
- Режимы
- ГОЛОСА
- ходьба
- волны
- способы
- неделя
- будь то
- который
- в то время как
- КТО
- будете
- бы
- Неправильно
- плохие руки
- доходность
- Ты
- ВАШЕ
- зефирнет