Sztuczna inteligencja jest używana do generowania wszystkiego zdjęcia do XNUMX do sztuczne białka, a teraz do listy dodano kolejną rzecz: mowę. W zeszłym tygodniu naukowcy z Microsoft wydał dokument na nowej sztucznej inteligencji o nazwie VALL-E, która może dokładnie symulować czyjś głos na podstawie próbki trwającej zaledwie trzy sekundy. VALL-E nie jest pierwszym stworzonym symulatorem mowy, ale jest zbudowany w inny sposób niż jego poprzednicy – i może wiązać się z większym ryzykiem potencjalnego niewłaściwego użycia.
Większość istniejących modeli zamiany tekstu na mowę wykorzystuje kształty fal (graficzne przedstawienie fal dźwiękowych przemieszczających się przez medium w czasie) do tworzenia fałszywych głosów, modyfikując cechy, takie jak ton lub wysokość, w celu przybliżenia danego głosu. Jednak VALL-E pobiera próbkę czyjegoś głosu i rozkłada ją na komponenty zwane tokenami, a następnie używa tych tokenów do tworzenia nowych dźwięków w oparciu o „zasady”, których już nauczył się o tym głosie. Jeśli głos jest szczególnie głęboki lub mówca wymawia swoje A w nosowy sposób lub jest bardziej monotonny niż przeciętny, są to wszystkie cechy, które sztuczna inteligencja wychwyci i będzie w stanie powielić.
Model bazuje na technologii tzw EnCodec firmy Meta, który ukazał się właśnie w tej części października. Narzędzie wykorzystuje trzyczęściowy system do kompresji dźwięku do 10 razy mniejszego niż pliki MP3 bez utraty jakości; jego twórcy chcieli, aby jednym z jego zastosowań była poprawa jakości głosu i muzyki podczas połączeń wykonywanych przez łącza o niskiej przepustowości.
Aby wyszkolić VALL-E, jego twórcy wykorzystali bibliotekę audio o nazwie LibriLight, którego 60,000 7,000 godzin mowy w języku angielskim składa się głównie z narracji audiobooków. Model daje najlepsze wyniki, gdy syntetyzowany głos jest podobny do jednego z głosów z biblioteki szkoleniowej (jest ich ponad XNUMX, więc nie powinno to być zbyt duże zamówienie).
Oprócz odtwarzania czyjegoś głosu, VALL-E symuluje również środowisko dźwiękowe z trzysekundowej próbki. Klip nagrany przez telefon brzmiałby inaczej niż ten nagrany osobiście, a jeśli rozmawiasz podczas spaceru lub jazdy samochodem, brana jest pod uwagę wyjątkowa akustyka tych scenariuszy.
Niektóre z próbki brzmią dość realistycznie, podczas gdy inne są nadal bardzo wyraźnie generowane komputerowo. Ale są zauważalne różnice między głosami; można powiedzieć, że opierają się na ludziach, którzy mają różne style mówienia, tony i wzorce intonacji.
Zespół, który stworzył VALL-E, wie, że może być bardzo łatwo wykorzystany przez złych aktorów; od udawania dźwiękowych ukąszeń polityków lub celebrytów po używanie znajomych głosów do proszenia o pieniądze lub informacje przez telefon — istnieje niezliczona ilość sposobów wykorzystania tej technologii. Mądrze powstrzymali się od upublicznienia kodu VALL-E i umieścili oświadczenie etyczne na końcu swojego artykułu (co nie powstrzyma nikogo, kto chce wykorzystać sztuczną inteligencję do nikczemnych celów).
To prawdopodobnie tylko kwestia czasu, zanim podobne narzędzia pojawią się i wpadną w niepowołane ręce. Naukowcy sugerują, że ryzyko, jakie będą stwarzać modele takie jak VALL-E, można złagodzić, budując modele wykrywania, aby ocenić, czy klipy audio są prawdziwe, czy zsyntetyzowane. Jeśli potrzebujemy sztucznej inteligencji do ochrony przed sztuczną inteligencją, skąd mamy wiedzieć, czy te technologie mają pozytywny wpływ netto? Czas pokaże.
Kredytowych Image: Shutterstock.com/Tancza
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
- Źródło: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Zdolny
- O nas
- Konto
- dokładnie
- w dodatku
- Korzyść
- AI
- Wszystkie kategorie
- już
- i
- Inne
- ktoś
- audio
- dostępny
- średni
- Łazienka
- na podstawie
- zanim
- jest
- BEST
- pomiędzy
- przerwy
- Budowanie
- wybudowany
- nazywa
- Połączenia
- nieść
- Gwiazdy
- Charakterystyka
- Teledyski
- kod
- składniki
- wygenerowane komputerowo
- połączenia
- mógłby
- Stwórz
- stworzony
- twórcy
- kredyt
- głęboko
- Wykrywanie
- Różnice
- różne
- na dół
- jazdy
- z łatwością
- Angielski
- Środowisko
- etyka
- wszystko
- Przede wszystkim system został opracowany
- dość
- imitacja
- Spadać
- znajomy
- i terminów, a
- od
- Generować
- GitHub
- dany
- większy
- siła robocza
- mający
- GODZINY
- W jaki sposób
- HTTPS
- Rezultat
- poprawy
- in
- włączony
- Informacja
- IT
- Wiedzieć
- Nazwisko
- dowiedziałem
- Biblioteka
- Prawdopodobnie
- Lista
- długo
- od
- zrobiony
- Dokonywanie
- Materia
- średni
- model
- modele
- pieniądze
- jeszcze
- ruch
- Muzyka
- Potrzebować
- netto
- Nowości
- październik
- ONE
- zamówienie
- Pozostałe
- Papier
- część
- szczególnie
- wzory
- Ludzie
- osoba
- telefon
- wybierać
- Smoła
- Stanowiska
- plato
- Analiza danych Platona
- PlatoDane
- Politycy
- pozytywny
- potencjał
- teraźniejszość
- głównie
- chronić
- publicznie
- cele
- jakość
- real
- realistyczny
- nagrany
- wydany
- zażądać
- Badacze
- Efekt
- Ryzyko
- ryzyko
- scenariusze
- sekund
- shutterstock
- podobny
- symulator
- mniejszy
- So
- Dźwięk
- Głośnik
- Mówiąc
- przemówienie
- wiosna
- Zestawienie sprzedaży
- Nadal
- system
- Brać
- trwa
- rozmawiać
- zespół
- Technologies
- Technologia
- Text-to-Speech
- Połączenia
- ich
- rzecz
- trzy
- Przez
- czas
- czasy
- do
- Żetony
- TON
- także
- narzędzie
- narzędzia
- Pociąg
- Trening
- szczypanie
- wyjątkowy
- us
- posługiwać się
- Głos
- GŁOSY
- chodzący
- fale
- sposoby
- tydzień
- czy
- który
- Podczas
- KIM
- będzie
- by
- Źle
- złe ręce
- plony
- You
- Twój
- zefirnet