Nauka stojąca za tym, jak sztuczna inteligencja Microsoftu może naśladować czyjś głos w 3 sekundy

Nauka stojąca za tym, jak sztuczna inteligencja Microsoftu może naśladować czyjś głos w 3 sekundy

Nauka wyjaśniająca, jak sztuczna inteligencja Microsoftu może naśladować głos dowolnej osoby w 3 sekundy PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Możesz zrozumieć, jak potężne stają się programy sztucznej inteligencji (AI). Naśladują sztukę wielkich i piszą scenariusze dla światowych liderów, wywołując globalne rozmowy wokół szybkiego rozwoju narzędzi sztucznej inteligencji.

Ostatnio Microsoft opracował sztuczną inteligencję do naśladowania głosu. Jego wydajność i dokładność są przełomowe, jednak użytkownicy kwestionują jego cel i wykorzystanie. Jak działa to narzędzie i jak odtwarza głosy w tak krótkim czasie?

Poznaj VALL-E

VALL-E to sztuczna inteligencja, która uczy się replikować głosy w ciągu trzech sekund. VALL-E jest jednym z pierwszych, które można tak szybko trenować, ponieważ poprzednie iteracje programów zamiany tekstu na mowę (TTS) zmagały się z wydajnością i niuansami dźwięków. 

„Jednak VALL-E usprawnia badania do tego badania pod każdym względem, skracając czas szkolenia i zwiększając dokładność złożonych cech głosu, takich jak ton i tempo”. 

Jednym z celów VALL-E było odtworzenie takich szczegółów poprzednie programy TTS nie mogły, a próby wykazują mieszane wyniki dla bieżącego modelu. Aby zapewnić autentyczność, program taki jak ten może nie tylko kopiować głos danej osoby — musi odtwarzać jakość dźwięku urządzenia nagrywającego i wpływy otoczenia w tle, takie jak zakłócenia lub hałas. Chociaż badacze pozostają pod wrażeniem jego właściwości replikacyjnych, Microsoft szuka dalszych ulepszeń w zakresie doskonalenia barwy i modulacji opartej na emocjach.

Ponieważ VALL-E nie jest jeszcze publicznie dostępny, nie ma pewności, jak będzie działać na większą skalę. Microsoft nie spieszy się, udoskonalając go przed publicznym wydaniem, aby zapewnić prawidłowe użycie. 

Ponieważ VALL-E działa z minimalnym próbkowaniem głosu, nie ma pewności, jak dobrze będzie generować dłuższe klipy audio o spójności. Zbiory danych sztucznej inteligencji i uczenia maszynowego zawierają niemal niezliczone punkty danych, które należy wziąć pod uwagę. To skok w przyszłość sztucznej inteligencji, jeśli Microsoft udoskonali replikację głosu z tak małym układem odniesienia. 

Poznaj Naukę

VALL-E spełnia swoje zadanie, ponieważ dobrze łączy się z istniejącą technologią. Na przykład GPT-3 nadal wykorzystuje modele przetwarzania języka aby udoskonalić swoje możliwości generowania TTS w celu uzyskania wyraźnej produkcji i dokładnej edycji. Jednak inne modele manipulują swoimi zbiorami danych w celu tworzenia nowych treści. VALL-E tworzy oryginalne treści.

We współpracy z Meta, Microsoft używa EnCodec i LibriLight do informowania VALL-E. EnCodec to sieć neuronowa do kompresji dźwięku, zdolna do wykrycia nawet najmniejszych zmian w dźwięku. LibriLight to biblioteka audio zawierające ponad 60,000 XNUMX godzin anglojęzycznych plików z różnych głosów. 

„Dzięki tym mocom VALL-E może wziąć trzysekundowy klip audio, przekształcić go w token, który EnCodec może przeanalizować, i odnieść go do danych biblioteki w celu stworzenia autentycznie brzmiących replikacji wokalu. Ponieważ EnCodec generuje pliki z niską przepływnością, generowanie jest szybsze niż w przypadku innych modeli tego rodzaju”. 

Sekwencja taka jak ta wygeneruje bardziej naturalnie brzmiące klipy audio, zdolne do oszukania nawet najbardziej wyszkolonego ucha lub technologii rozpoznawania głosu.

Potencjał tego wsparcia dla przemysłu jest niewymierny. Może zwiększyć wydajność i produktywność, jednocześnie zmniejszając stres w każdym sektorze, nie tylko w komunikacji. Ma jednak równe szanse na zaostrzenie działalność przestępcza w przestrzeni cyfrowejwraz z innymi konsekwencjami.

Weź udział w rozmowie

Podobnie jak w przypadku większości postępów w zakresie sztucznej inteligencji, pojawiają się obawy natury etycznej. Podobnie jak w przypadku każdego generowania tekstu, sztuczna inteligencja działa na podstawie danych — dlatego plagiat zawsze będzie brany pod uwagę. Jednak VALL-E odniesienia do źródeł wolnych od praw autorskich, więc nie jest to jeszcze główny problem.

Jednak Microsoft musi również uważać na opinię publiczną używającą takiej technologii do wrogich celów, takich jak rozpowszechnianie fałszywych wiadomości lub mieszanie dochodzeń z fałszywymi zeznaniami — prawdopodobnie od nieżyjących już świadków. Określone branże, takie jak prawo, będą musiały wymyślić nowe zasady i struktury jak napotkać deepfake na sali sądowej.

„Jak w przypadku każdego postępu technologicznego, niewłaściwe użycie jest nie tylko prawdopodobne — jest nieuniknione”. 

Poza groźbą kradzieży własności kreatywnej lub tożsamości, sprawna sztuczna inteligencja generująca głos może zagrozić źródłom utrzymania niektórych zawodów lub usunąć wiedzę artystyczną i zawodową z branż, które wcześniej były uzależnione od lat poświęconych rzemiosłu.

Aktorzy głosowi, autorzy przemówień i przedstawiciele obsługi klienta mogą stać się przestarzałi dzięki naśladowaniu głosu AI. Możliwość tego jest nieznana i prawdopodobnie nie jest możliwa w szybki, kompleksowy sposób. Możliwym rezultatem jest to, że naśladowanie głosu będzie uzupełniać te branże, zamiast je zastępować. Generowanie głosu AI może pomóc w generowaniu pomysłów lub działać jako kolejny pracownik do delegowania zadań, odciążając pracowników.

Opanowywanie warunków mówienia dzięki sztucznej inteligencji replikującej głos

Pomimo obaw etycznych związanych z replikacją głosu AI, Microsoft wprowadza innowacje w progresywnym, zaradnym narzędziu dla nowej generacji — w zależności od tego, jak społeczeństwo z niego korzysta. Nauka stojąca za tym narzędziem jest najbardziej rewolucyjnym aspektem i może informować inżynierów i programistów, jak rozszerzać i przekształcać sztuczną inteligencję do przyszłych zastosowań we wszystkich sektorach. 

Technologia wdrożona wraz z VALL-E może przełożyć się na zmianę sposobu myślenia w branży. Wspólny charakter tego projektu przyczyni się do rozwoju interaktywności i rozwoju sztucznej inteligencji w nową erę dokładności i wydajności.

Przeczytaj także Lalal.AI do dzielenia dźwięku wysokiej jakości 

Znak czasu:

Więcej z Technologia AIOT