Az AI-t arra használják, hogy mindent generáljanak képek nak nek szöveg nak nek mesterséges fehérjék, és most egy másik dolog is felkerült a listára: a beszéd. Múlt héten kutatók a A Microsoft közleményt adott ki a VALL-E nevű új mesterséges intelligencia, amely pontosan képes szimulálni bárki hangját egy mindössze három másodperces minta alapján. Nem a VALL-E az első beszédszimulátor, amelyet elődeitől eltérő módon építettek fel – és nagyobb kockázatot jelenthet az esetleges visszaélésekre.
A legtöbb létező szöveg-beszédmodell hullámformákat (a hanghullámok grafikus ábrázolását, amint azok egy közegen keresztül haladnak az idő múlásával) használ hamis hangok létrehozására, olyan jellemzőket módosítva, mint a hangszín vagy a hangmagasság, hogy megközelítsék az adott hangot. A VALL-E azonban mintát vesz valakinek a hangjából, és tokennek nevezett összetevőkre bontja, majd ezeket a tokeneket használja új hangok létrehozására a már megtanult „szabályok” alapján. Ha egy hang különösen mély, vagy ha egy beszélő orrszerűen ejti ki az A-t, vagy ha az átlagosnál monotonabbak, akkor a mesterséges intelligencia ezeket a tulajdonságokat felveszi, és képes megismételni.
A modell az ún EnCodec a Meta által, amely éppen ebben a részben, októberben jelent meg. Az eszköz három részből álló rendszert használ az MP10-nál tízszer kisebbre tömörítendő hanganyag minőségromlás nélkül; készítői annak egyik felhasználási területére szánták, hogy javítsák a hang- és zeneminőséget az alacsony sávszélességű kapcsolatokon lebonyolított hívások során.
A VALL-E betanításához készítői egy hangkönyvtárat használtak LibriLight, amelynek 60,000 7,000 órányi angol beszéde elsősorban hangoskönyves narrációból áll. A modell akkor éri el a legjobb eredményt, ha a szintetizálandó hang hasonló a képzési könyvtár egyik hangjához (amelyből több mint XNUMX van, tehát ez nem lehet túl magas a sorrend).
Amellett, hogy újrateremti valaki hangját, a VALL-E a hangkörnyezetet is szimulálja a három másodperces mintából. A telefonon rögzített klip másképp hangzik, mint a személyesen készített klip, és ha sétál vagy vezet beszéd közben, a rendszer figyelembe veszi ezen forgatókönyvek egyedi akusztikáját.
Néhány minták meglehetősen valósághűen hangzanak, míg mások még mindig nagyon nyilvánvalóan számítógéppel generáltak. De észrevehető különbségek vannak a hangok között; Megállapítható, hogy különböző beszédstílusú, hangmagasságú és intonációs mintákkal rendelkező embereken alapulnak.
A VALL-E-t létrehozó csapat tudja, hogy azt nagyon könnyen használhatják rossz színészek; A technológiát számtalan módon kihasználhatja, a politikusok vagy hírességek színlelt harapásától kezdve az ismerős hangok használatáig, hogy pénzt vagy információt kérjenek telefonon. Bölcsen elzárkóztak attól, hogy nyilvánosan elérhetővé tegyék a VALL-E kódját, és egy etikai nyilatkozatot tettek a tanulmányuk végére (ami nem fog sokat elriasztani mindenkit, aki az AI-t aljas célokra akarja használni).
Valószínűleg csak idő kérdése, hogy a hasonló eszközök megjelenjenek és rossz kezekbe kerüljenek. A kutatók azt sugallják, hogy a VALL-E-hez hasonló modellek által jelentett kockázatok mérsékelhetők, ha olyan észlelési modelleket építenek, amelyek felmérik, hogy a hangklipek valódiak vagy szintetizáltak. Ha mesterséges intelligenciára van szükségünk, hogy megvédjen minket a mesterséges intelligencia ellen, honnan tudhatjuk, hogy ezeknek a technológiáknak van-e nettó pozitív hatása? Az idő fogja megmondani.
Kép: Shutterstock.com/Tancha
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- Platoblockchain. Web3 metaverzum intelligencia. Felerősített tudás. Hozzáférés itt.
- Forrás: https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- Képes
- Rólunk
- Fiók
- pontosan
- hozzáadott
- Előny
- AI
- Minden termék
- már
- és a
- Másik
- bárki
- hang-
- elérhető
- átlagos
- Rossz
- alapján
- előtt
- hogy
- BEST
- között
- szünetek
- Épület
- épült
- hívott
- kéri
- visz
- hírességek
- jellemzők
- klipek
- kód
- alkatrészek
- számítógép által létrehozott
- kapcsolatok
- tudott
- teremt
- készítette
- alkotók
- hitel
- mély
- Érzékelés
- különbségek
- különböző
- le-
- vezetés
- könnyen
- Angol
- Környezet
- etika
- minden
- létező
- meglehetősen
- hamisítvány
- Esik
- ismerős
- vezetéknév
- ból ből
- generál
- GitHub
- adott
- nagyobb
- kezek
- tekintettel
- NYITVATARTÁS
- Hogyan
- HTTPS
- Hatás
- javuló
- in
- beleértve
- információ
- IT
- Ismer
- keresztnév
- tanult
- könyvtár
- Valószínű
- Lista
- Hosszú
- le
- készült
- Gyártás
- Anyag
- közepes
- modell
- modellek
- pénz
- több
- mozog
- zene
- Szükség
- háló
- Új
- október
- ONE
- érdekében
- Egyéb
- Papír
- rész
- különösen
- minták
- Emberek (People)
- person
- telefon
- vedd
- Hangmagasság
- helyek
- Plató
- Platón adatintelligencia
- PlatoData
- politikusok
- pozitív
- potenciális
- be
- elsősorban
- védelme
- nyilvánosan
- célokra
- világítás
- igazi
- valószerű
- feljegyzett
- felszabaduló
- kérni
- kutatók
- Eredmények
- Kockázat
- kockázatok
- forgatókönyvek
- másodperc
- Shutterstock
- hasonló
- szimulátor
- kisebb
- So
- hang
- Hangszóró
- beszélő
- beszéd
- tavasz
- nyilatkozat
- Még mindig
- rendszer
- Vesz
- tart
- beszéd
- csapat
- Technologies
- Technológia
- Text-to-Speech
- A
- azok
- dolog
- három
- Keresztül
- idő
- alkalommal
- nak nek
- tokenek
- TONE
- is
- szerszám
- szerszámok
- Vonat
- Képzések
- csípés
- egyedi
- us
- használ
- Hang
- HANGOK
- gyalogos
- hullámok
- módon
- hét
- vajon
- ami
- míg
- WHO
- lesz
- lenne
- Rossz
- rossz kezek
- hozamok
- te
- A te
- zephyrnet