Наука о том, как искусственный интеллект Microsoft может имитировать чей-либо голос за 3 секунды

Наука о том, как искусственный интеллект Microsoft может имитировать чей-либо голос за 3 секунды

Наука, лежащая в основе того, как ИИ Microsoft может имитировать чей-либо голос за 3 секунды. PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Вы можете понять, насколько мощными становятся программы искусственного интеллекта (ИИ). Они подражают искусству великих и пишут сценарии для мировых лидеров, вызывая глобальные дискуссии о быстром распространении инструментов ИИ.

Совсем недавно Microsoft разработала искусственный интеллект для имитации голоса. Его эффективность и точность новаторские, но пользователи сомневаются в его назначении и использовании. Как работает этот инструмент и как он воспроизводит голоса за такой короткий промежуток времени?

Знакомьтесь, ВАЛЛ-И

VALL-E — это искусственный интеллект, который учится воспроизводить голоса за три секунды. VALL-E — одна из первых программ, которые так быстро обучаются, поскольку предыдущие версии программ преобразования текста в речь (TTS) боролись с эффективностью и нюансами звуков. 

«Тем не менее, VALL-E улучшает исследования для этого исследования во всех отношениях, сокращая время обучения и повышая точность сложных голосовых качеств, таких как тон и темп». 

Одной из целей VALL-E было воспроизвести детали, предыдущие программы TTS не могли, и испытания показывают смешанные результаты для текущей модели. Для достоверности такая программа может не только копировать голос человека — она должна воспроизводить качество звука записывающего устройства и фоновые воздействия окружающей среды, такие как статические помехи или шум. Хотя исследователи по-прежнему впечатлены его репликативными качествами, Microsoft стремится к дальнейшим улучшениям в оттачивании тембра и интонаций, основанных на эмоциях.

Поскольку VALL-E еще не общедоступна, неизвестно, как она будет работать в больших масштабах. Microsoft не торопится, дорабатывая его перед публичным выпуском, чтобы обеспечить правильное использование. 

Поскольку VALL-E работает с минимальной выборкой голоса, неясно, насколько хорошо он будет генерировать более длинные аудиоклипы со связностью. Наборы данных ИИ и машинного обучения имеют почти бесчисленное количество точек данных для рассмотрения. Если Microsoft доведет до совершенства репликацию голоса с такой маленькой системой отсчета, это станет прыжком в будущее ИИ. 

Знай науку

VALL-E успешно справляется со своей задачей, потому что хорошо сочетается с существующими технологиями. Например, ГПТ-3 еще использует модели обработки языка чтобы усовершенствовать свои возможности генерации TTS для четкого производства и точного редактирования. Однако другие модели манипулируют своими наборами данных для создания нового контента. VALL-E делает оригинальный контент.

В сотрудничестве с Meta Microsoft использует EnCodec и LibriLight для информирования VALL-E. EnCodec — это нейронная сеть сжатия звука, способная распознавать даже самые незначительные изменения в звуке. LibriLight — аудиобиблиотека. содержащий более 60,000 XNUMX часов англоязычных файлов с разных голосов. 

«Благодаря этим возможностям VALL-E может взять трехсекундный аудиоклип, преобразовать его в токен, который EnCodec может проанализировать, и сопоставить его с данными библиотеки для воспроизведения подлинно звучащих голосовых реплик. Поскольку EnCodec генерирует файлы с низким битрейтом, генерация выполняется быстрее, чем у других подобных моделей». 

Такая последовательность будет генерировать более естественно звучащие аудиоклипы, способные обмануть даже самый тренированный слух или технологию распознавания голоса.

Потенциал этого для помощи отраслям не поддается количественной оценке. Это может повысить эффективность и производительность, снизив при этом стресс во всех секторах, а не только в сфере связи. Тем не менее, он имеет равные шансы усугубить преступная деятельность в цифровом пространстве, наряду с другими последствиями.

Участвовать в беседе

Как и в случае с большинством достижений в области ИИ, возникают этические проблемы. Как и при любой генерации текста, ИИ работает на основе данных, поэтому плагиат всегда будет учитываться. Тем не менее, ВАЛЛ-Э ссылки на источники без авторских прав, так что это еще не главная проблема.

Тем не менее, Microsoft также должна опасаться, что общественность использует подобные технологии во враждебных целях, таких как распространение фальшивых новостей или запутывание расследований ложными показаниями — возможно, от свидетелей, которых уже нет в живых. Конкретным отраслям, таким как юриспруденция, придется изобретать новую политику и структуры. как столкнуться с дипфейками в зале суда.

«Как и в случае любого технологического прогресса, неправильное использование не просто вероятно — оно неизбежно». 

Помимо угрозы кражи творческой собственности или личных данных, опытный искусственный интеллект, генерирующий голос, может угрожать средствам к существованию некоторых профессий или вытеснять художественный и профессиональный опыт из отраслей, которые ранее зависели от многих лет, посвященных ремеслу.

Актеры озвучивания, спичрайтеры и представители службы поддержки могут устареть из-за имитации голоса ИИ. Возможность этого неизвестна и, вероятно, невозможна быстрым и всеобъемлющим образом. Возможный результат заключается в том, что голосовая имитация дополнит эти отрасли, а не заменит их. Генерация голоса ИИ может помочь с генерацией идей или выступать в качестве другого работника для делегирования задач, разгружая людей.

Общение с ИИ, воспроизводящим голос

Несмотря на этические опасения по поводу искусственного интеллекта, воспроизводящего голос, Microsoft создает прогрессивный, находчивый инструмент для нового поколения — в зависимости от того, как его использует публика. Наука, лежащая в основе этого инструмента, является наиболее революционным аспектом, и он может дать инженерам и разработчикам информацию о том, как расширять и преобразовывать ИИ для будущих приложений во всех секторах. 

Технологии, реализованные с помощью VALL-E, могут привести к изменению мышления в отрасли. Совместный характер этого проекта продвинет интерактивность и развитие ИИ в новую эру точности и эффективности.

Читайте также Lalal.AI для качественного разделения аудио 

Отметка времени:

Больше от Технология АИИОТ