ШІ використовується для створення всього зображень до текст до штучні білки, а тепер до списку додано ще одне: мова. Минулого тижня дослідники з Microsoft випустила документ на новому штучному інтелекті під назвою VALL-E, який може точно імітувати голос будь-якої людини на основі зразка довжиною лише три секунди. VALL-E не є першим створеним симулятором мовлення, але він побудований інакше, ніж його попередники, і може мати більший ризик потенційного неправильного використання.
Більшість існуючих моделей перетворення тексту в мовлення використовують хвилі (графічне зображення звукових хвиль під час їх руху в середовищі з плином часу) для створення фальшивих голосів, налаштовуючи такі характеристики, як тон або висота, щоб наблизити певний голос. Проте VALL-E бере зразок чийогось голосу та розбиває його на компоненти, які називаються токенами, а потім використовує ці токени для створення нових звуків на основі «правил», які він уже дізнався про цей голос. Якщо голос особливо глибокий, або співрозмовник вимовляє свої «А» назально, або він більш монотонний, ніж у середньому, це все риси, які ШІ вловить і зможе відтворити.
В основі моделі лежить технологія під назвою EnCodec від Meta, який щойно вийшов у жовтні цього року. Інструмент використовує трикомпонентну систему для стиснення аудіо в 10 разів менше, ніж MP3, без втрати якості; його творці мали на увазі, що одним із його застосувань є покращення якості голосу та музики під час дзвінків, здійснених через з’єднання з низькою пропускною здатністю.
Для навчання VALL-E його творці використовували аудіотеку під назвою LibriLight, чиї 60,000 7,000 годин англійської мови в основному складаються з оповідання аудіокниг. Модель дає найкращі результати, коли голос, що синтезується, схожий на один із голосів із навчальної бібліотеки (їх налічується понад XNUMX, тому це не має бути занадто великим порядком).
Окрім відтворення чийогось голосу, VALL-E також імітує звукове середовище з трисекундного зразка. Кліп, записаний по телефону, звучатиме інакше, ніж той, який був знятий особисто, і якщо ви йдете або їдете під час розмови, унікальна акустика цих сценаріїв береться до уваги.
Деякі з цих зразки звучать досить реалістично, тоді як інші все ще дуже очевидно створені комп’ютером. Але є помітні відмінності між голосами; ви можете сказати, що вони базуються на людях, які мають різні стилі мовлення, висоту та інтонаційні моделі.
Команда, яка створила VALL-E, знає, що його легко можуть використати погані актори; Є незліченна кількість способів скористатися цією технологією: від імітації звукових фрагментів політиків чи знаменитостей до використання знайомих голосів для запиту грошей чи інформації по телефону. Вони мудро утрималися від того, щоб зробити код VALL-E загальнодоступним, і включили етичну заяву в кінці своєї статті (яка не сильно стримає тих, хто хоче використовувати ШІ в мерзенних цілях).
Ймовірно, це лише питання часу, коли подібні інструменти з’являться й потраплять у чужі руки. Дослідники припускають, що ризики, які представляють такі моделі, як VALL-E, можна зменшити, побудувавши моделі виявлення, щоб оцінити, чи аудіозаписи є справжніми чи синтезованими. Якщо нам потрібен штучний інтелект, щоб захистити нас від ШІ, як дізнатися, чи справляють ці технології чистий позитивний вплив? Час покаже.
Зображення Фото: Shutterstock.com/Танча
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Здатний
- МЕНЮ
- рахунки
- точно
- доданий
- Перевага
- AI
- ВСІ
- вже
- та
- Інший
- будь
- аудіо
- доступний
- середній
- поганий
- заснований
- перед тим
- буття
- КРАЩЕ
- між
- ламається
- Створюємо
- побудований
- званий
- Виклики
- нести
- знаменитості
- характеристика
- кліпси
- код
- Компоненти
- генерується комп'ютером
- Зв'язки
- може
- створювати
- створений
- Творці
- кредит
- глибокий
- Виявлення
- Відмінності
- різний
- вниз
- водіння
- легко
- англійська
- Навколишнє середовище
- етика
- все
- існуючий
- достатньо
- підроблений
- Падати
- знайомий
- Перший
- від
- породжувати
- GitHub
- даний
- великий
- Руки
- має
- ГОДИННИК
- Як
- HTTPS
- Impact
- поліпшення
- in
- включені
- інформація
- IT
- Знати
- останній
- вчений
- бібліотека
- Ймовірно
- список
- Довго
- від
- made
- Робить
- Матерія
- середа
- модель
- Моделі
- гроші
- більше
- рухатися
- музика
- Необхідність
- мережу
- Нові
- жовтень
- ONE
- порядок
- інші
- Папір
- частина
- особливо
- моделі
- Люди
- людина
- телефон
- вибирати
- Крок
- смоли
- plato
- Інформація про дані Платона
- PlatoData
- Політики
- позитивний
- потенціал
- представити
- в першу чергу
- захист
- публічно
- цілей
- якість
- реальний
- реалістичний
- записаний
- випущений
- запросити
- Дослідники
- результати
- Risk
- ризики
- сценарії
- seconds
- shutterstock
- аналогічний
- симулятор
- менше
- So
- Звучати
- Гучномовець
- розмова
- мова
- весна
- Заява
- Як і раніше
- система
- Приймати
- приймає
- говорити
- команда
- Технології
- Технологія
- Перетворення тексту в мову
- Команда
- їх
- річ
- три
- через
- час
- times
- до
- Жетони
- TONE
- занадто
- інструмент
- інструменти
- поїзд
- Навчання
- налаштування
- створеного
- us
- використання
- Голос
- ГОЛОСИ
- ходьба
- хвилі
- способи
- week
- Чи
- який
- в той час як
- ВООЗ
- волі
- б
- Неправильно
- неправильні руки
- врожайність
- Ти
- вашу
- зефірнет