Nowa sztuczna inteligencja Microsoftu może sklonować Twój głos w zaledwie 3 sekundy

Opublikowane ponownie przez Plato

Obserwuje: 0

Nowa sztuczna inteligencja Microsoftu może sklonować Twój głos w zaledwie 3 sekundy PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Sztuczna inteligencja jest używana do generowania wszystkiego zdjęcia do XNUMX do sztuczne białka, a teraz do listy dodano kolejną rzecz: mowę. W zeszłym tygodniu naukowcy z Microsoft wydał dokument na nowej sztucznej inteligencji o nazwie VALL-E, która może dokładnie symulować czyjś głos na podstawie próbki trwającej zaledwie trzy sekundy. VALL-E nie jest pierwszym stworzonym symulatorem mowy, ale jest zbudowany w inny sposób niż jego poprzednicy – i może wiązać się z większym ryzykiem potencjalnego niewłaściwego użycia.

Większość istniejących modeli zamiany tekstu na mowę wykorzystuje kształty fal (graficzne przedstawienie fal dźwiękowych przemieszczających się przez medium w czasie) do tworzenia fałszywych głosów, modyfikując cechy, takie jak ton lub wysokość, w celu przybliżenia danego głosu. Jednak VALL-E pobiera próbkę czyjegoś głosu i rozkłada ją na komponenty zwane tokenami, a następnie używa tych tokenów do tworzenia nowych dźwięków w oparciu o „zasady”, których już nauczył się o tym głosie. Jeśli głos jest szczególnie głęboki lub mówca wymawia swoje A w nosowy sposób lub jest bardziej monotonny niż przeciętny, są to wszystkie cechy, które sztuczna inteligencja wychwyci i będzie w stanie powielić.

Model bazuje na technologii tzw EnCodec firmy Meta, który ukazał się właśnie w tej części października. Narzędzie wykorzystuje trzyczęściowy system do kompresji dźwięku do 10 razy mniejszego niż pliki MP3 bez utraty jakości; jego twórcy chcieli, aby jednym z jego zastosowań była poprawa jakości głosu i muzyki podczas połączeń wykonywanych przez łącza o niskiej przepustowości.

Aby wyszkolić VALL-E, jego twórcy wykorzystali bibliotekę audio o nazwie LibriLight, którego 60,000 7,000 godzin mowy w języku angielskim składa się głównie z narracji audiobooków. Model daje najlepsze wyniki, gdy syntetyzowany głos jest podobny do jednego z głosów z biblioteki szkoleniowej (jest ich ponad XNUMX, więc nie powinno to być zbyt duże zamówienie).

Oprócz odtwarzania czyjegoś głosu, VALL-E symuluje również środowisko dźwiękowe z trzysekundowej próbki. Klip nagrany przez telefon brzmiałby inaczej niż ten nagrany osobiście, a jeśli rozmawiasz podczas spaceru lub jazdy samochodem, brana jest pod uwagę wyjątkowa akustyka tych scenariuszy.

Niektóre z próbki brzmią dość realistycznie, podczas gdy inne są nadal bardzo wyraźnie generowane komputerowo. Ale są zauważalne różnice między głosami; można powiedzieć, że opierają się na ludziach, którzy mają różne style mówienia, tony i wzorce intonacji.

Zespół, który stworzył VALL-E, wie, że może być bardzo łatwo wykorzystany przez złych aktorów; od udawania dźwiękowych ukąszeń polityków lub celebrytów po używanie znajomych głosów do proszenia o pieniądze lub informacje przez telefon — istnieje niezliczona ilość sposobów wykorzystania tej technologii. Mądrze powstrzymali się od upublicznienia kodu VALL-E i umieścili oświadczenie etyczne na końcu swojego artykułu (co nie powstrzyma nikogo, kto chce wykorzystać sztuczną inteligencję do nikczemnych celów).

To prawdopodobnie tylko kwestia czasu, zanim podobne narzędzia pojawią się i wpadną w niepowołane ręce. Naukowcy sugerują, że ryzyko, jakie będą stwarzać modele takie jak VALL-E, można złagodzić, budując modele wykrywania, aby ocenić, czy klipy audio są prawdziwe, czy zsyntetyzowane. Jeśli potrzebujemy sztucznej inteligencji do ochrony przed sztuczną inteligencją, skąd mamy wiedzieć, czy te technologie mają pozytywny wpływ netto? Czas pokaże.

Kredytowych Image: Shutterstock.com/Tancza

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
Źródło: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

Znak czasu: 12 stycznia 2023 r.

Znak czasu: Luty 17, 2024

Nowa sztuczna inteligencja Microsoftu może sklonować Twój głos w zaledwie 3 sekundy

Opublikowane ponownie przez Plato

Więcej z Centrum osobliwości

Pomiary helu w odległych galaktykach mogą dać fizykom wgląd w to, dlaczego wszechświat istnieje

Elementy składowe życia mogły powstać w sprayu pierwotnego morza

Konflikt na Ukrainie sprawił, że świat zaczął korzystać z energii odnawialnej, mówi raport IEA

Edycja genów CRISPR miała przełomowy rok – a to dopiero początek

Jak badanie wrażliwości zwierząt może pomóc rozwiązać etyczną zagadkę świadomej sztucznej inteligencji

Wystrzeliwanie księżycowego pyłu w kosmos jako „krem przeciwsłoneczny” dla Ziemi może pomóc zatrzymać zmiany klimatu

Samochody bez kierowcy Waymo uderzają w kierowców bezpieczeństwa na autostradzie w Arizonie

Ta sztuczna inteligencja może projektować złożone białka idealnie dopasowane do naszych potrzeb

Ten start-up wspierany przez Gates buduje modułowe domy z energooszczędnych paneli

Nowa, niewielka sztuczna inteligencja firmy NVIDIA przekształca zdjęcia w pełne sceny 3D w zaledwie kilka sekund

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto